Читаем Радиосон. Трактат о свободе воли полностью

Радиосон. Трактат о свободе воли

Делая выборы и запоминая их, робот приобретает способность к обучению. Обучение происходит во время взаимодействия робота со средой, когда среда выдает ответные реакции на его поведение. В робототехнике под обучением понимается процесс выработки в системе той или иной реакции на внешние сигналы путем многократных воздействий на систему и внешней корректировки. Внешняя корректировка, или как ее еще называют, «система поощрений и наказаний», осуществляется «учителем», который сообщает системе дополнительную информацию о том, верна или неверна реакция системы. В роли «учителя» в общем случае выступает сама среда, которая воздействует на вход робота и формирует сигналы, в зависимости от которых изменяется его поведение.

Как известно, система поощрений и наказаний является проверенным средством модификации поведения животных и людей. У животных отбор целесообразных реакций происходит благодаря их подкреплению, то есть успешная реакция имеет большую вероятность последовательного воспроизведения. Наиболее показательным применением этой системы является процесс дрессировки, хорошо изученный зоопсихологами, во время которого происходит формирование и закрепление желательных условных рефлексов. При дрессировке обычно используются как наказание, так и поощрение. Первое устраняет нежелательные реакции, второе подкрепляет нужные. Для закрепления условных рефлексов можно обойтись исключительно наказаниями, поскольку отсутствие наказания может рассматриваться как поощрение. С технической точки зрения речь идет о минимизации потока воздействий на объект. По мере выработки нужных условных рефлексов количество наказаний минимизируется.

Когда знания зоопсихологов получили возможность реализации в автоматических системах, оказалось, что у роботов можно вырабатывать навыки и формировать условные рефлексы в точности как у собак. В робототехнике для описания процесса дрессировки обычно используются понятия штрафов и вознаграждений. Смысл реакции робота на сигналы штрафов и вознаграждений заключается в изменении значений вероятностей выполняемых действий. Целесообразность его поведения в некоторой среде заключается в увеличении числа благоприятных реакций и уменьшении числа реакций неблагоприятных.

В теории адаптивного управления система поощрений и наказаний была представлена точными математическими моделями. Их основа достаточно проста: при благоприятном поведении робота значение входного воздействия равняется нулю, а при неблагоприятном единице. На языке таких двоичных сигналов могут кодироваться различные входные последовательности. С помощью двоичного кода подкрепления реально записывать сложные поведенческие программы не только в электронной памяти роботов, но и в мозге высокоразвитых животных, включая человека, о чем недвусмысленно заявляли представители бихевиоризма. Сам процесс выработки условных рефлексов может подлежать формальному описанию на языке алгоритмов.

В классическом эксперименте Павлова с колокольчиком – пищеварительными рефлексами собак, алгоритм обусловливания мог быть записан приблизительно следующим образом: 1. Воспринимать раздражители (условный и безусловный). Перейти к следующему указанию. 2. Если происходит одновременное наступление безусловного и условного раздражителей, перейти к следующему указанию. В противном случае вернуться к указанию 1. 3. Добавить единицу к содержанию памяти (предполагается, что система, реализующая алгоритм, имеет память, в которой может храниться некоторое число, в начале действия алгоритма равное нулю). Перейти к указанию 4. 4. Сравнить содержимое памяти с заданным числом n. Если число в памяти больше n, перейти к следующему указанию, в противном случае – к указанию 1. 5. Придать условному раздражителю свойства безусловного. Работу алгоритма закончить.

Наиболее тщательным образом теоретические модели адаптивного поведения были разработаны отечественным ученым-кибернетиком М.Л. Цетлиным. Он занимался моделированием «коллективного поведения автоматов» и изучал типичные стратегии поведения в различных условиях случайной внешней среды. В подготовке экспериментальной базы для теории Цетлина значимую роль сыграли эксперименты бихевиористов по модификации поведения. В числе последних стоит упомянуть имя Торндайка, использовавшего в качестве случайной среды специально сконструированные лабиринты, по которым он гонял крыс и других мелких зверушек. Коридоры этих лабиринтов снабжались всевозможными приятными и неприятными для животных раздражителями, а стратегия их поведения, в общем случае, сводилась к тому, чтобы избегать наказания и приобретать вознаграждения.

Читаем Радиосон. Трактат о свободе воли полностью

Радиосон. Трактат о свободе воли

Похожие книги

Все жанры