Читаем Идиот или гений? Как работает и на что способен искусственный интеллект полностью

Идиот или гений? Как работает и на что способен искусственный интеллект

Эта классическая техника дрессировки, в психологии называемая оперантным обусловливанием, столетиями применяется к животным и людям. Оперантное обусловливание вдохновило важный метод машинного обучения, называемый обучением с подкреплением. Обучение с подкреплением отличается от обучения с учителем, которое я описала в предыдущей главе: в чистой форме обучение с подкреплением не требует размеченных обучающих примеров. Вместо этого агент – обучающаяся программа – совершает действия в среде (обычно в компьютерной симуляции) и время от времени получает сигналы подкрепления, или награды. Эти промежуточные сигналы подкрепления – единственная обратная связь, которую агент использует для обучения. Для мужа Эми Сазерленд сигналами подкрепления были ее улыбки, поцелуи и похвала. Хотя компьютерная программа, возможно, не станет реагировать на поцелуи или искреннее “ты лучше всех”, ее можно научить реагировать на машинный эквивалент такой признательности – например, на положительные числа, добавляемые в ее память.

Несмотря на то что обучение с подкреплением много десятков лет входило в инструментарий ИИ, долгое время оно оставалось в тени нейронных сетей и других методов обучения с учителем. Все изменилось в 2016 году, когда обучение с подкреплением сыграло ключевую роль в поразительном и судьбоносном прорыве ИИ – программе, которая научилась побеждать мастеров сложной игры го. Чтобы объяснить эту программу, а также рассказать о других недавних достижениях обучения с подкреплением, я сначала приведу простой пример, показывающий, как оно работает.

Дрессировка собаки-робота

Для примера рассмотрим веселую игру в футбол для роботов, в рамках которой люди (обычно студенты) программируют роботов для игры в упрощенную версию футбола на “поле” размером с комнату. Иногда игроками становятся милые собаки-роботы Aibo, как на рис. 22. Робот Aibo (производимый Sony) оборудован камерой, чтобы получать зрительные входные сигналы, встроенным программируемым компьютером и целым набором датчиков и моторов, позволяющих роботу ходить, пинаться, бодаться и даже вилять своим пластиковым хвостом.

Допустим, мы хотим научить собаку-робота простейшему футбольному навыку: увидев мяч, подходить и пинать его. Если следовать традиционному методу ИИ, необходимо запрограммировать в робота следующие правила: сделай шаг к мячу; повторяй, пока одна из твоих лап не коснется мяча; пни мяч этой лапой. Само собой, краткие описания вроде “сделай шаг к мячу”, “пока одна из твоих лап не коснется мяча” и “пни мяч” необходимо аккуратно перевести в серию детализированных сенсорных и моторных операций, доступных Aibo.

Рис. 22. Собака-робот Sony Aibo играет с роботизированным мячом

Таких четко прописанных правил может оказаться достаточно для выполнения столь простой задачи. Однако чем более “разумным” вы хотите сделать своего робота, тем сложнее вручную прописать правила его поведения. И, конечно, невозможно разработать набор правил, подходящих для любой ситуации. Что, если между роботом и мячом окажется большая лужа? А если тренировочный конус перекроет роботу обзор? А если камень не позволит сдвинуть мяч с места? Как всегда, реальный мир полон пограничных случаев, прогнозировать которые очень сложно. Обучение с подкреплением дает надежду, что агент – в данном случае собака-робот – самостоятельно овладеет гибкими стратегиями поведения, просто выполняя определенные действия и время от времени получая сигналы подкрепления, а людям не придется вручную прописывать правила или непосредственно учить агента, как действовать в любых возможных обстоятельствах.

Давайте назовем нашу собаку-робота Рози, в честь моего любимого телеробота – ироничной домработницы из мультсериала “Джетсоны”[178]. Для простоты допустим, что на заводе Рози предустанавливают следующую способность: если в поле зрения Рози оказывается футбольный мяч, она может оценить, сколько шагов необходимо сделать, чтобы к нему подойти. Это количество называется “состоянием”. В общем смысле состояние агента в конкретный момент времени – это восприятие агентом его текущего положения. Рози – простейший из возможных агентов, и ее состояние выражается одним числом. Когда я говорю, что Рози находится “в состоянии x”, это значит, что в текущий момент времени она оценивает расстояние до мяча в x шагов.

Помимо способности определять свое состояние, Рози может выполнять три встроенных действия: она может делать Шаг вперед, может делать Шаг назад и может Пинать мяч. (Рози запрограммирована незамедлительно вернуться обратно в случае выхода за пределы поля.) В духе оперантного обусловливания мы будем давать Рози сигнал подкрепления только тогда, когда она будет успешно пинать мяч. Обратите внимание, что заранее Рози не знает, какие состояния или действия приводят к получению сигнала подкрепления – и есть ли такие состояния и действия вообще.

Читаем Идиот или гений? Как работает и на что способен искусственный интеллект полностью

Идиот или гений? Как работает и на что способен искусственный интеллект

Дрессировка собаки-робота

Похожие книги

Все жанры