Читаем Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет полностью

В основе TD-Gammon лежит метод временной разности, который был вдохновлен обучающими экспериментами с животными. Почти все виды, которые были протестированы, от пчел до людей, способны к ассоциативному обучению, как собака Павлова. В эксперименте Павлова после сенсорного раздражителя — звука колокольчика — собаке давали еду, что вызывало у той слюноотделение. После нескольких тренировок звон колокольчика сам по себе стал приводить к образованию слюны. У разных видов разные предпочтительные безусловные стимулы. Пчелы очень хорошо ассоциируют запах, цвет и форму цветка с полезным нектаром и используют эту выученную связь, чтобы искать похожие цветы. Что-то в этой универсальной форме обучения было важным, и в 1960-х годах психологи интенсивно изучали условия, которые привели к появлению ассоциативного обучения, и разрабатывали модели для его объяснения. Бихевиористы[255], такие как Беррес Фредерик Скиннер, обучили голубей распознавать людей на фотографиях. Похоже на то, что можно сделать с помощью глубокого обучения, но есть большая разница: обучение с использованием метода обратного распространения ошибки требует подробной обратной связи со всеми единицами выходного слоя, но ассоциативное обучение дает только один сигнал вознаграждения — правильно или неправильно.



Рис. 10.4. Дофаминовые нейроны в человеческом мозге. Несколько ядер среднего мозга (овальные области, заполненные точками) проецируют аксоны в кору и базальные ганглии (подкорковые ядра). Временные всплески означают расхождения между ожидаемым и полученным вознаграждением, которые используются для выбора действий и изменения прогнозов.


Только стимул, возникающий непосредственно перед вознаграждением, ассоциируется с вознаграждением. Это имеет смысл, потому что стимул с большей вероятностью вызвал вознаграждение, если он предшествовал вознаграждению, а не шел после него. Причинно-следственная связь — важный закон природы. Обратное происходит, когда условный стимул сопровождается наказанием, например ударом ноги, и животное учится избегать раздражителя. В некоторых случаях разрыв между условным стимулом и наказанием может быть довольно большим. В 1950-х годах Джон Гарсия показал, что, если крысу кормить подслащенной водой и затем через несколько часов вызывать рвоту, крыса начинает избегать подслащенной воды в последующие дни. Это называется условное отвращение ко вкусу, и у людей оно работает так же[256]. Например, порой болезнь может ассоциироваться с неудачным приемом пищи, например с шоколадом, который съели в то время. Возникающее в результате отвращение может сохраняться годами, даже если умом вы понимаете, что проблема не в шоколаде.



Рис. 10.5. Ответ дофаминового нейрона в мозге обезьяны, подтверждающий, что он сигнализирует об ошибке предсказания вознаграждения остальной части мозга. Каждая точка — всплеск в дофаминовых нейронах. Каждая строка — одна попытка обучения. Количество пиков в каждой временной ячейке отображается в верхней части каждого растра. Верхнее изображение: в начале обучения награда неожиданная, и дофамин раз за разом запускает всплеск импульсов вскоре после награды. Среднее изображение: после многих попыток, когда свет (CS) неоднократно мигает перед получением вознаграждения, клетка дофамина реагирует на свет, но не на вознаграждение. Согласно временной разнице в обучении, ответ после награды отменяется предсказанием награды. Нижнее изображение: когда в качестве эксперимента вознаграждение было удержано, обнаружилось падение активности в ожидании награды.


Дофамин, нейромодулятор, содержащий набор диффузно проецирующихся нейронов в стволе мозга (рис. 10.4), уже давно ассоциировался с обучением методом вознаграждения, но не было известно, что за сигналы они передают в коре. Питер Даян и Рид Монтегю, будучи постдокторантами в моей лаборатории в 1990-х годах, поняли, что дофаминовые нейроны могут реализовать обучение с учетом временной разницы[257]. Эти модели и их предсказания были опубликованы в один из самых захватывающих научных периодов моей жизни и впоследствии подтверждены на обезьянах Вольфрамом Шульцом, сделавшим запись единичных нейронов[258], и на людях с помощью визуализации мозга (рис. 10.5)[259]. В настоящее время установлено, что переходные изменения в активности дофаминовых нейронов сигнализируют об ошибке прогнозирования вознаграждения.

Перейти на страницу:

Похожие книги

Как справиться с компьютерной зависимостью
Как справиться с компьютерной зависимостью

Компьютер так прочно вошел в нашу жизнь, что большая половина человечества не может представить без него своего существования. Мы проводим за ним не только все рабочее, но и свободное время. Однако не каждый человек знает, что круглосуточное пребывание за монитором несет реальную угрозу как физическому (заболевания позвоночника, сердечно-сосудистой системы и т. д.), так и психическому здоровью (формирование психической зависимости от Интернета и компьютерных игр). С помощью данной книги вы сможете выявить у себя и своих близких признаки компьютерной зависимости, понять причины и механизмы ее возникновения и справиться с ней посредством новейших психологических методик и упражнений.

Виктория Сергеевна Тундалева , Елена Вячеславовна Быковская , М О Носатова , Н Р Казарян , Светлана Викторовна Краснова

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Цифровой журнал «Компьютерра» № 24
Цифровой журнал «Компьютерра» № 24

ОглавлениеБольшие новостиMicrosoft BizSpark: поиски инвесторов и менторов Автор: Григорий РудницкийNASA открыло виртуальную лунную базу Автор: Михаил КарповТерралабПромзона: Катушка с лупой Автор: Николай МаслухинPixel Qi: дисплеи, не слепнущие на солнце Автор: Юрий ИльинПромзона: Батарейки Microsoft Автор: Николай МаслухинСофт: Process Explorer — порнобаннер в прицеле Автор: Николай МаслухинSynaptics: тачпады нового поколения Автор: Олег НечайПромзона: Очки-суфлер Автор: Николай МаслухинМобильный интернет для малого бизнеса Автор: Максим БукинВещь дня: беззеркальная камера Lumix G2 Автор: Андрей ПисьменныйHDBaseT 1.0: дешёвая замена HDMI Автор: Олег НечайПромзона: Воздушный холодильник Автор: Николай МаслухинСофт: Настраиваем Ubuntu с помощью Ubuntu Tweak Автор: Крестников ЕвгенийПромзона: Бескрайний бассейн Автор: Николай МаслухинСпособы обмана в мобильных сетях Автор: Максим БукинСвоя играВасилий Щепетнёв: О пользе словаря Автор: Василий ЩепетневКивино гнездо: Человек против обмана Автор: Берд КивиMicrosoft: что пошло не так Автор: Андрей ПисьменныйКафедра Ваннаха: Скольжение к сингулярности Автор: Ваннах МихаилВасилий Щепетнёв: Гамбит Форт-Росс Автор: Василий ЩепетневКафедра Ваннаха: Облачное программирование и Пуэрто-Рико Автор: Ваннах МихаилВасилий Щепетнёв: Следы на целлулоиде Автор: Василий ЩепетневКивино гнездо: Конфликт криптографии и бюрократии Автор: Берд КивиИнтерактивЛюдмила Булавкина, директор YouDo по маркетингу, о любительском контенте Автор: Юрий ИльинМакс Зацепин и Глеб Никитин о музыкальной игре для iPad Автор: Юрий ИльинСергей Матиясевич (3D Bank) о рынке трёхмерных моделей Автор: Юрий ИльинВ. Репин (ИХБФМ СО РАН) о бактерии из вечной мерзлоты Автор: Алла АршиноваДмитрий Завалишин об операционной системе «Фантом» Автор: Андрей ПисьменныйБлогиАнатолий Вассерман: «Марс-500» Автор: Анатолий ВассерманКак большой оператор споткнулся о маленького SaaS-провайдера Автор: Анисимов КонстантинАнатолий Вассерман: Дальневосточные «партизаны» Автор: Анатолий ВассерманГолубятня-ОнлайнГолубятня: Сидр №4 Автор: Сергей ГолубицкийГолубятня: Бедность Автор: Сергей Голубицкий

Журнал «Компьютерра»

Зарубежная компьютерная, околокомпьютерная литература