В результате дисконтирования, которое является частью определения стоимости, происходят интересные вещи. Например, посмотрите на варианты, которые есть у Анжелы с Таймс-сквер. Она может либо пойти на 34-ю улицу, получить 20 долларов и закончить на Бликер-стрит, либо пойти на 14-ю улицу, получить 8 долларов, затем пойти на Юнион-сквер, получить 12 долларов и закончить на Бликер-стрит. Оба маршрута принесут ей в общей сложности 20 долларов. Но ценность 34-й улицы равна 20, в то время как ценность 14-й улицы равна 17,6 (вычисляется как 8 + 0,8 x 12), что указывает на то, что 34-я улица - лучший вариант. Это демонстрирует, как дисконтирование будущих вознаграждений может привести к планам с меньшим количеством шагов; если есть только столько вознаграждений, которые можно получить, лучше получить их быстрее, чем медленнее. Дисконтирование также означает, что даже большие вознаграждения будут игнорироваться, если они слишком далеки. Если на железнодорожной станции в Нью-Джерси Анжела получит 75 долларов, это все равно не повлияет на ее выбор, когда она будет выходить из дома. Влияние вознаграждения на функцию ценности подобно ряби от камня, упавшего в воду. Сильнее всего она ощущается в близлежащих штатах, но ее сила ослабевает, чем дальше вы удаляетесь.3
Это техническое определение стоимости - с учетом состояний, рекурсии и коэффициентов дисконтирования - может показаться далеким от того, что мы используем в повседневном языке. Но эти разговорные коннотации в значительной степени присутствуют в этом уравнении. Почему мы ценим деньги? Не потому, что бумажка или монета доставляют нам удовольствие, а потому, что мы можем представить себе будущее, когда у нас будет эта бумажка или монета. Деньги стоят только того, что они могут дать нам позже, а то, что мы можем получить позже, заложено в определении стоимости Беллмана.
Работа Беллмана по формулированию последовательных процессов принятия решений таким образом действительно позволила ему стать "современным интеллектуалом", которым он стремился стать, перейдя в RAND. В годы после его первых публикаций, описывающих это решение, бесчисленные компании и правительственные организации начали применять его в мире. К 1970-м годам идеи Беллмана использовались для решения таких разнообразных задач, как проектирование канализационных систем, составление расписания авиаперевозок и даже управление исследовательскими отделами в таких крупных компаниях, как Monsanto. Техника получила название "динамическое программирование" - довольно банальное словосочетание, которое Беллман придумал для того, чтобы отгородиться от некоторых математически фобизированных военных. 1950-е годы были не самыми удачными для математических исследований", - написал Беллман в своей автобиографии. Корпорация RAND работала на ВВС, а начальником ВВС был [Чарльз] Уилсон. Поэтому я чувствовал, что должен сделать что-то, чтобы оградить Уилсона и ВВС от того факта, что я действительно занимаюсь математикой в корпорации RAND. ... Таким образом, я решил, что динамическое программирование - это хорошее название. Это было то, против чего не мог возразить даже конгрессмен. Поэтому я использовал его как зонтик для своей деятельности".
Применяя метод в каждой из этих ситуаций, инженеры должны были найти способ вычислить функцию стоимости. В некоторых случаях, как в примере с метро, приведенном выше, ландшафт проблемы достаточно прост, и расчеты не представляют сложности. Но простые проблемы редко бывают реалистичными. Реальный мир имеет большое количество потенциальных состояний; эти состояния могут соединяться друг с другом сложными и даже неопределенными способами; и они могут делать это посредством множества возможных действий. Много усилий было потрачено на поиск функции стоимости в этих сложных ситуациях. Однако даже при использовании хитроумных методов применение динамического программирования обычно упиралось в предел вычислительных мощностей того времени. Вычисление функции ценности всегда было узким местом в процессе. А без способа нахождения функции стоимости весь потенциал вклада Беллмана оставался бы нераскрытым.
* * *
В наследии Павлова есть своя ирония. Его непосредственным следствием стало возникновение бихевиоризма - религиозного движения, стремящегося игнорировать разум и сосредоточиться только на непосредственно измеряемом поведении. Однако порожденная им линия математических моделей добилась успеха в другом направлении, все больше углубляясь в сознание; чтобы отразить обучение с подкреплением в уравнениях, потребовалось использовать термины, обозначающие скрытые ментальные понятия.