Приведенное определение, конечно, не совсем строго. Прежде всего остается неясным, что значит «достаточно большое разнообразие». Неясно и то, в каком соотношении между собой должны находиться предсказуемые и непредсказуемые реакции. Однако на первых порах, чтобы разобраться в сути дела, достаточно и того, что сказано. Рассматривая цепочки последовательных реакций, можно говорить также о степени соответствия этих реакций состояниям внешней среды. Если установлены критерии такого соответствия и если цепочки реакций объекта в установленном смысле отвечают этим критериям, то говорят, что поведение объекта является целесообразным или даже разумным.
Разобравшись в понятии «поведение», мы заодно узнали, что такое автомат. Автоматом можно назвать любую конструкцию, которая способна в данный момент времени находиться в одном из некоторого конечного набора состояний, а также в зависимости от тех или иных причин переходить из одного состояния в другое.
Хорошо бы ввести и понятие «среда». Среда — это нечто, способное находиться в каждый момент времени в одном из некоторого конечного набора состояний. Но обладает она и еще важным свойством. Для каждой пары: «состояние автомата — состояние среды», — среда способна выдавать некоторый выигрыш. Выигрыши различны для различных пар. Они могут быть и отрицательными. Отрицательный выигрыш рассматривается как проигрыш, наказание.
Теория позволяет легко посчитать, что если поведение автомата никак не связано с состояниями среды, иначе говоря, по отношению к среде автомат ведет себя случайным образом, то суммарный выигрыш за большой промежуток времени оказывается равным среднему по всем возможным выигрышам. Средний выигрыш может быть как положительным, так и отрицательным, в зависимости от конкретной среды.
Пусть некоторый автомат в некоторой заданной среде получает выигрыш, больший среднего. Поведение такого автомата называют целесообразным. Подобное определение совпадает с привычным бытовым понятием целесообразности. Более того, если бы речь шла не об автомате, а о человеке и мы бы видели, что этот человек в некоторых условиях способен добиться выигрыша, мы наверняка назвали бы его поведение разумным. Однако суть не в названии.
Простейшим из всех автоматов, очевидно, является автомат, способный принимать только два состояния. Каждый раз, получая от среды выигрыш со знаком плюс (поощрение), автомат сохраняет свое состояние, а получая выигрыш со знаком минус (наказание), автомат меняет свое состояние на противоположное. Такой автомат подобен деревенскому дурачку, играющему на гармошке только две мелодии — веселую и грустную. Встречает он на улице свадьбу, начинает играть грустную мелодию и, по всей вероятности, получает по шее. На другой день, встречая похоронное шествие, он играет веселую мелодию (переключился в другое состояние) — снова получает по шее и так далее. Поведение подобного автомата не является целесообразным. К такому же выводу приводит и строгая теория.
Представьте себе более сложный автомат, состоящий из двух простых. Один из них — рабочий автомат, а второй — автомат памяти. Состояния рабочего автомата называются действиями. Эти действия воспринимаются средой, и в ответ на каждое действие рабочего автомата среда выдает выигрыш того или иного размера. Иначе обстоит дело со сменой действий рабочего автомата. Они изменяются не в зависимости от выигрыша или проигрыша, а в зависимости от состояния автомата памяти.
Автомат памяти можно уподобить лесенке с перенумерованными ступеньками. Самая нижняя ступенька имеет номер один, следующая за ней — номер два и так далее. Каждому состоянию автомата соответствует нахождение шарика на какой-либо ступеньке. Рабочий автомат меняет свое состояние только в том случае, если шарик в автомате памяти расположен на ступеньке номер один.
В теории рассматривается целое семейство таких автоматов. Первый в этом семействе — автомат с линейной тактикой. При получении положительного выигрыша (поощрения) автомат с линейной тактикой сохраняет свое состояние (действие). При этом шарик в автомате памяти поднимается на ступеньку вверх. Наоборот, при получении наказания шарик в автомате памяти опускается на ступеньку вниз.
Автомат с линейной тактикой — автомат рассудительный. Если, например, шарик лежал на ступеньке номер три и автомат был наказан, шарик опустится на ступеньку номер два, но своего действия рабочий автомат не изменит. Автомат лишь «настораживается». Только после третьего наказания рабочий автомат принимает меры, то есть меняет свое состояние. Наоборот, несколько следующих друг за другом поощрений заставляют автомат «успокоиться» — шарик поднимается все выше и выше.