Читаем Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет полностью

Мы добились прогресса в исследовании ошибки предсказания вознаграждения у приматов, когда в 1992 году я посетил в Берлине Рандольфа Менцеля, изучавшего быстрое обучение в мозге пчелы. Пчелы – лучшие ученики в мире насекомых. Пчеле нужно всего несколько раз посетить необходимый цветок, чтобы запомнить его. В мозге пчелы около миллиона крошечных нейронов, и из-за размеров их трудно регистрировать. Группа Менцеля обнаружила уникальный нейрон, названный VUMmx1, который реагировал на сахарозу, но не на запах, однако если после появления запаха сразу давали сахарозу, через какое-то время этот нейрон начинал реагировать на запах[260]. Дофаминовая модель обучения методом временной разницы может быть реализована одним нейроном в мозге пчелы. VUMmx1 высвобождает октопамин – нейромодулятор, химически близкий к дофамину. Наша модель обучения пчелы может объяснить некоторые нюансы психологии пчелы, такие как неприятие риска[261]: если у пчелы есть выбор между постоянной и удвоенной наградой, пчелы выберут постоянную награду[262].

Мотивация и базальные ганглии

Дофаминовые нейроны являются основной системой, контролирующей мотивацию в головном мозге (см. рис. 10.4). Все вызывающие привыкание препараты действуют за счет повышения уровня дофаминовой активности. Когда умирает достаточно много дофаминовых нейронов, появляются симптомы болезни Паркинсона, включая дрожание конечностей, затрудненные движения и в конце концов ангедонию – потерю удовольствия от любой деятельности, которая заканчивается кататонией – полным отсутствием движения и эмоциональной реакции. Но в норме дофаминовые клетки обеспечивают кратковременные выбросы дофамина в кору и другие области мозга при получении неожиданного вознаграждения, а снижают свою активность, если полученная награда меньше ожидаемой. Это характерные особенности алгоритма обучения с учетом временной разницы (см. рис. 10.5).

Когда вам нужно принять решение, вы задаете вопрос своим дофаминовым нейронам. Что выбрать из меню? Вы представляете каждый пункт, и дофаминовые клетки оценивают предполагаемое вознаграждение. Должен ли я вступить в брак с этим человеком? Дофаминовые клетки с большей вероятностью дадут верный ответ, нежели рассуждения. Сложнее всего решать проблемы со множеством характеристик, не поддающихся измерению. Что перевесит: положительные качества партнера, такие как хорошее чувство юмора, или плохие качества, например неопрятность? При выборе супруга вы делаете сотни таких сравнений. Все эти рассуждения система вознаграждения сводит к единой «валюте» – кратковременным дофаминовым сигналам.

В алгоритме обучения с учетом временной разницы есть два параметра: скорость обучения α и коэффициент обесценивания γ (блок 6). У пчел высокая скорость обучения, и они могут научиться ассоциировать цветок с наградой после одного посещения. Скорость обучения у млекопитающих, которым обычно требуется много попыток, ниже. Коэффициент обесценивания также варьируется в широком диапазоне. Когда γ = 0, алгоритм жаден и решения принимаются только на основе немедленного вознаграждения; но когда γ = 1, вес всех будущих наград одинаков. В классическом эксперименте маленьким детям предоставили выбор: либо съесть зефир сразу, либо подождать 15 минут, чтобы получить дополнительную порцию зефира[263]. Возраст был важным фактором, и дети помладше не могли откладывать получение удовольствия. Ожидание большого вознаграждения в отдаленном будущем может привести к принятию решений с отрицательным вознаграждением в краткосрочной перспективе для достижения долгосрочной цели. Я вспоминаю об этом, когда учу студентов, которые большую часть своей жизни ходили в школу. Когда я был молод, мать говорила мне, что если я буду хорошим мальчиком, то получу свою награду на небесах – высшая мера отложенного вознаграждения.

Нейроны дофамина получают входные сигналы от части мозга, называемой базальными ганглиями (см. рис. 10.4), которые, как известно, важны для последовательного обучения и формирования привычного поведения. В нейроны в полосатом теле базальных ганглий приходят входные сигналы от всей коры мозга. Входные сигналы от задней половины коры больше связаны с изучением последовательности движений, необходимых для достижения цели. Входные сигналы от префронтальной коры – с планированием последовательности действий. Путь от коры до базальных ганглий и обратно занимает 100 миллисекунд, информация проходит по кругу 10 раз за секунду. Это позволяет принимать быстрые решения одно за другим для достижения цели. Нейроны в базальных ганглиях оценивают состояние корковых зон и присваивают им значение.

Перейти на страницу:

Похожие книги

Оптимизация BIOS. Полный справочник по всем параметрам BIOS и их настройкам
Оптимизация BIOS. Полный справочник по всем параметрам BIOS и их настройкам

Прочтя эту книгу, вы узнаете, что представляет собой BIOS, какие типы BIOS существуют, как получить доступ к BIOS и обновлять ее. Кроме того, в издании рассказано о неполадках в работе BIOS, которые приводят, например, к тому, что ваш компьютер не загружается, или к возникновению ошибок в BIOS. Что делать в этот случае? Как устранить проблему? В книге рассказывается об этом и даже приводится описание загрузки BIOS во флэш-память.Также вы научитесь использовать различные функции BIOS, узнаете, как оптимизировать их с целью улучшения производительности и надежности системы. Вы поймете, почему рекомендуемые установки являются оптимальными.После прочтения книги вы сможете оптимизировать BIOS не хуже профессионала!Книга предназначена для всех пользователей компьютера – как начинающих, которые хотят научиться правильно и грамотно настроить свою машину, используя возможности BIOS, так и профессионалов, для которых книга окажется полезным справочником по всему многообразию настроек BIOS. Перевод: А. Осипов

Адриан Вонг

Зарубежная компьютерная, околокомпьютерная литература / Программирование / Книги по IT
SAP R/3 Системное администрирование
SAP R/3 Системное администрирование

Эта книга полностью обновлена и тщательно пересмотрена. Она является необходимым пособием для руководителей информационных служб, технических консультантов и системных администраторов R/3, которые хотят иметь полное представление об администрировании Basis.Знания, полученные "из первых рук" РѕС' различных специалистов SAP Global Support, работавших над реализацией более 20000 систем R/3, служат РѕСЃРЅРѕРІРѕР№ этой книги, которая научит выполнять все критически важные задачи системного администрирования с оптимальной эффективностью. Она учит быстро принимать правильные решения в сложных ситуациях, используя рекомендации экспертов и ценные рекомендации из реального мира, которые делают это уникальное РїРѕСЃРѕР±ие необходимым для повседневного использования.Кроме всего прочего, эта книга является ценным источником, помогающим подготовиться к экзамену СТС (Certified Technical Consultant) no R/3 Release 4.6C и Enterprise.Р' руководстве рассмотрены:# Настройка системной инфраструктуры.# Администрирование клиента.# Пользователи и полномочия.# Фоновая обработка.# Архивирование данных.# Администрирование спула.# Обслуживание инстанций.# Системный мониторинг.Р

Лиане Вилл , Сигрид Хагеман

Зарубежная компьютерная, околокомпьютерная литература