Читаем Идиот или гений? Как работает и на что способен искусственный интеллект полностью

Ключевая концепция обучения с подкреплением – это ценность выполнения конкретного действия в определенном состоянии. Ценность действия A в состоянии S – это число, отражающее текущий прогноз агента о вознаграждении, которое он получит, если, находясь в состоянии S, выполнит действие A, а затем продолжит выполнять высокоценные действия. Позвольте мне это объяснить. Если в настоящий момент вы пребываете в состоянии “держу шоколадную конфету в руке”, то ценным действием будет поднести руку ко рту. Последующими ценными действиями будут открыть рот, положить конфету на язык и жевать. Вашим вознаграждением станет наслаждение вкусом шоколада. Просто поднести руку ко рту недостаточно, чтобы получить вознаграждение, но это действие ведет вас по верному пути, и если вы ели шоколад раньше, то можете спрогнозировать уровень вознаграждения, которое получите в итоге. Цель обучения с подкреплением состоит в том, чтобы агент узнал ценность действий, которые станут хорошими индикаторами получения вознаграждения (при условии, что агент продолжит поступать верно после выполнения конкретного действия)[179]. Как мы увидим, процесс выяснения ценности конкретных действий в определенном состоянии обычно предполагает долгий путь проб и ошибок.

Рис. 24. Матрица Q для Рози после первого эпизода обучения с подкреплением

Рози запоминает ценность действий в большой таблице, которая хранится в ее компьютерной памяти. В этой таблице, показанной на рис. 24, перечисляются все возможные состояния Рози (то есть все возможные расстояния до мяча в пределах поля) и возможные действия для каждого состояния. Каждое действие в конкретном состоянии имеет числовую ценность, и значения ценности меняются по мере обучения Рози, все точнее прогнозируя будущие вознаграждения. Таблица состояний, действий и ценностей называется матрицей Q. Такая форма обучения с подкреплением иногда называется Q-обучением. Буква Q используется, потому что в первой статье о Q-обучении буквой V (от value, “ценность”) было обозначено кое-что другое[180].

Рис. 25. Второй эпизод обучения с подкреплением

В начале обучения Рози я составляю исходную матрицу Q, присваивая всем ценностям значение 0 – нулевое значение. Когда Рози получает сигнал подкрепления, пнув мяч в конце эпизода 1, действию Пинать в состоянии “0 шагов до мяча” присваивается значение ценности 10, то есть величина вознаграждения. В будущем, оказавшись в состоянии “0 шагов до мяча”, Рози сможет посмотреть в матрицу Q, увидеть, что действие Пинать имеет самую высокую ценность – то есть является индикатором самого высокого уровня вознаграждения, – и выбрать Пинать, вместо того чтобы выбирать действие наугад. Вот что значит здесь “обучение”!

Эпизод 1 закончился на том, что Рози наконец пнула мяч. Теперь мы переходим к эпизоду 2 (рис. 25), в начале которого мяч и Рози оказываются на новых позициях (рис. 25 А). Как и раньше, на каждой итерации Рози определяет свое текущее состояние – изначально она находится в шести шагах от мяча – и выбирает действие, теперь уже сверяясь со своей матрицей Q. Однако на этом этапе все возможные действия в текущем состоянии по-прежнему имеют нулевую ценность, а следовательно, у Рози пока нет информации, которая помогла бы ей сделать выбор. В связи с этим Рози снова выбирает действие случайным образом и делает Шаг назад. Она также делает Шаг назад на следующей итерации (рис. 25 B). Нашей собаке-роботу еще учиться и учиться.

Все продолжается как раньше, пока, следуя долгим путем проб и ошибок, Рози не оказывается в одном шаге от мяча (рис. 25 C) и случайным образом не выбирает Шаг вперед. Вдруг нога Рози касается мяча (рис. 25 D), и матрице Q есть что сказать об этом состоянии. В частности, она говорит, что в текущем состоянии – в нуле шагов от мяча – есть действие Пинать, которое вызовет вознаграждение 10. Теперь Рози может использовать эту информацию, усвоенную в предыдущем эпизоде, чтобы выбрать действие, а именно – Пинать. Но вот в чем суть Q-обучения: теперь Рози может узнать кое-что о действии (Шаг вперед), которое она выполнила в предыдущем состоянии (в одном шаге от мяча). Именно это действие привело ее на прекрасную позицию, которую она заняла сейчас! В частности, действию Шаг вперед в состоянии “один шаг до мяча” присваивается более высокая ценность в матрице Q, и эта ценность составляет некоторую долю ценности действия Пинать в состоянии “ноль шагов до мяча”, которое непосредственно ведет к получению сигнала подкрепления. Здесь я присвоила этому действию ценность 8 (рис. 26).

Рис. 26. Матрица Q для Рози после второго эпизода обучения с подкреплением

Перейти на страницу:

Все книги серии Книжные проекты Дмитрия Зимина

Достаточно ли мы умны, чтобы судить об уме животных?
Достаточно ли мы умны, чтобы судить об уме животных?

В течение большей части прошедшего столетия наука была чрезмерно осторожна и скептична в отношении интеллекта животных. Исследователи поведения животных либо не задумывались об их интеллекте, либо отвергали само это понятие. Большинство обходило эту тему стороной. Но времена меняются. Не проходит и недели, как появляются новые сообщения о сложности познавательных процессов у животных, часто сопровождающиеся видеоматериалами в Интернете в качестве подтверждения.Какие способы коммуникации практикуют животные и есть ли у них подобие речи? Могут ли животные узнавать себя в зеркале? Свойственны ли животным дружба и душевная привязанность? Ведут ли они войны и мирные переговоры? В книге читатели узнают ответы на эти вопросы, а также, например, что крысы могут сожалеть о принятых ими решениях, воро́ны изготавливают инструменты, осьминоги узнают человеческие лица, а специальные нейроны позволяют обезьянам учиться на ошибках друг друга. Ученые открыто говорят о культуре животных, их способности к сопереживанию и дружбе. Запретных тем больше не существует, в том числе и в области разума, который раньше считался исключительной принадлежностью человека.Автор рассказывает об истории этологии, о жестоких спорах с бихевиористами, а главное — об огромной экспериментальной работе и наблюдениях за естественным поведением животных. Анализируя пути становления мыслительных процессов в ходе эволюционной истории различных видов, Франс де Вааль убедительно показывает, что человек в этом ряду — лишь одно из многих мыслящих существ.* * *Эта книга издана в рамках программы «Книжные проекты Дмитрия Зимина» и продолжает серию «Библиотека фонда «Династия». Дмитрий Борисович Зимин — основатель компании «Вымпелком» (Beeline), фонда некоммерческих программ «Династия» и фонда «Московское время».Программа «Книжные проекты Дмитрия Зимина» объединяет три проекта, хорошо знакомые читательской аудитории: издание научно-популярных переводных книг «Библиотека фонда «Династия», издательское направление фонда «Московское время» и премию в области русскоязычной научно-популярной литературы «Просветитель».

Франс де Вааль

Биология, биофизика, биохимия / Педагогика / Образование и наука
Скептик. Рациональный взгляд на мир
Скептик. Рациональный взгляд на мир

Идея писать о науке для широкой публики возникла у Шермера после прочтения статей эволюционного биолога и палеонтолога Стивена Гулда, который считал, что «захватывающая действительность природы не должна исключаться из сферы литературных усилий».В книге 75 увлекательных и остроумных статей, из которых читатель узнает о проницательности Дарвина, о том, чем голые факты отличаются от научных, о том, почему высадка американцев на Луну все-таки состоялась, отчего умные люди верят в глупости и даже образование их не спасает, и почему вода из-под крана ничуть не хуже той, что в бутылках.Наука, скептицизм, инопланетяне и НЛО, альтернативная медицина, человеческая природа и эволюция – это далеко не весь перечень тем, о которых написал главный американский скептик. Майкл Шермер призывает читателя сохранять рациональный взгляд на мир, учит анализировать факты и скептически относиться ко всему, что кажется очевидным.

Майкл Брант Шермер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
Записки примата: Необычайная жизнь ученого среди павианов
Записки примата: Необычайная жизнь ученого среди павианов

Эта книга — воспоминания о более чем двадцати годах знакомства известного приматолога Роберта Сапольски с Восточной Африкой. Будучи совсем еще молодым ученым, автор впервые приехал в заповедник в Кении с намерением проверить на диких павианах свои догадки о природе стресса у людей, что не удивительно, учитывая, насколько похожи приматы на людей в своих биологических и психологических реакциях. Собственно, и себя самого Сапольски не отделяет от своих подопечных — подопытных животных, что очевидно уже из названия книги. И это придает повествованию особое обаяние и мощь. Вместе с автором, давшим своим любимцам библейские имена, мы узнаем об их жизни, страданиях, любви, соперничестве, борьбе за власть, болезнях и смерти. Не менее яркие персонажи книги — местные жители: фермеры, егеря, мелкие начальники и простые работяги. За два десятилетия в Африке Сапольски переживает и собственные опасные приключения, и трагедии друзей, и смены политических режимов — и пишет об этом так, что чувствуешь себя почти участником событий.

Роберт Сапольски

Биографии и Мемуары / Научная литература / Прочая научная литература / Образование и наука

Похожие книги

Антирак груди
Антирак груди

Рак груди – непонятная и пугающая тема. Суровые факты шокируют: основная причина смерти женщин от 25 до 75 лет – различные формы рака, и рак молочной железы – один из самых смертоносных. Это современное бедствие уже приобрело характер эпидемии. Но книга «Антирак груди» написана не для того, чтобы вы боялись. Напротив, это история о надежде.Пройдя путь от постановки страшного диагноза к полному выздоровлению, профессор Плант на собственном опыте познала все этапы онкологического лечения, изучила глубинные причины возникновения рака груди и составила программу преодоления и профилактики этого страшного заболевания. Благодаря десяти факторам питания и десяти факторам образа жизни от Джейн Плант ваша жизнь действительно будет в ваших руках.Книга также издавалась под названием «Ваша жизнь в ваших руках. Как понять, победить и предотвратить рак груди и яичников».

Джейн Плант

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература