Читаем Идиот или гений? Как работает и на что способен искусственный интеллект полностью

Учитывая, что Рози – робот, ее “наградой” будет число, например 10, добавляемое в ее “память вознаграждения”. Можно считать, что для собаки-робота число 10 становится эквивалентом собачьего лакомства. А может, и нет. В отличие от настоящей собаки, Рози не испытывает желания получить лакомство, положительное число или что-либо еще. Как я опишу ниже, в обучении с подкреплением созданный человеком алгоритм руководит процессом обучения Рози в ответ на получаемое вознаграждение, то есть алгоритм говорит Рози, как учиться на собственном опыте.

В ходе обучения с подкреплением Рози выполняет действия в серии обучающих эпизодов, каждый из которых состоит из некоторого количества итераций. На каждой итерации Рози определяет свое текущее состояние и выбирает действие к выполнению. Если вознаграждение получено, Рози чему-то учится, как я покажу ниже. Здесь я позволяю каждому эпизоду продолжаться до тех пор, пока Рози не пнет мяч, после чего она получает вознаграждение. На это может уйти много времени. Как и при дрессировке настоящей собаки, нам нужно запастись терпением.

На рис. 23 показан гипотетический обучающий эпизод. В начале эпизода учитель (я) помещает Рози и мяч на исходные позиции на поле, и Рози оказывается лицом к мячу (рис. 23 A). Рози определяет свое текущее состояние: двенадцать шагов до мяча. Поскольку Рози пока ничему не научилась, она – невинная tabula rasa – еще не знает, какие действия предпочтительны, а потому случайно выбирает действие из трех доступных ей вариантов: Шаг вперед, Шаг назад, Пинать. Допустим, она выбирает Шаг назад. Мы, люди, понимаем, что Шаг назад – неудачный выбор в такой ситуации, но не забывайте, что мы позволяем Рози самой разобраться, как выполнять задачу.

На итерации 2 (рис. 23 B) Рози определяет свое новое состояние: тринадцать шагов до мяча. Она выбирает новое действие, снова случайным образом: Шаг вперед. На итерации 3 (рис. 23 C) Рози определяет свое “новое” состояние: двенадцать шагов до мяча. Она вернулась туда, откуда начала, но даже не знает, что уже бывала в этом состоянии раньше! В чистейшей форме обучения с подкреплением обучающийся агент не помнит свои предыдущие состояния. Запоминание предыдущих состояний может занимать большой объем памяти и считается необязательным.

На итерации 3 Рози – снова случайным образом – выбирает действие Пинать, но не получает сигнал подкрепления, потому что пинает воздух. Ей еще предстоит узнать, что пинки вознаграждаются, только если она стоит у мяча.

Рис. 23. Гипотетический первый эпизод обучения с подкреплением

Рози продолжает выбирать случайные действия, не получая обратной связи, на множестве итераций. Но в какой-то момент – скажем, на итерации 351 – по счастливой случайности Рози оказывается около мяча и выбирает действие Пинать (рис. 23 D). Наконец-то Рози получает вознаграждение и использует его, чтобы чему-то научиться.

Чему Рози учится? Мы рассматриваем простейший вариант обучения с подкреплением: получая вознаграждение, Рози узнает только о том состоянии и том действии, которые непосредственно предшествовали сигналу подкрепления. В частности, Рози узнает, что если она находится в этом состоянии (например, в 0 шагов от мяча), то выбор этого действия (например, Пинать) – хорошая мысль. Но больше она не узнает ничего. Так, она не узнает, что если она находится в 0 шагов от мяча, то Шаг назадплохой выбор. В конце концов, она еще этого не попробовала. Вдруг шаг назад в таком состоянии приведет к получению гораздо большего вознаграждения? На этом этапе Рози также не узнает, что в момент, когда она находится в одном шаге от мяча, полезно сделать Шаг вперед. Чтобы узнать это, ей нужно дождаться следующего эпизода. Если она узнает за один раз слишком много, это может негативно сказаться на процессе обучения: например, если Рози решит пнуть воздух в двух шагах от мяча, мы не хотим, чтобы она усвоила, что этот неэффективный пинок был необходимым шагом к получению сигнала подкрепления. У людей такое поведение называется проявлением суеверия, то есть ошибочной уверенности, что конкретное действие может привести к конкретному хорошему или плохому результату. В обучении с подкреплением суеверий нужно во что бы то ни стало избегать.

Перейти на страницу:

Все книги серии Книжные проекты Дмитрия Зимина

Достаточно ли мы умны, чтобы судить об уме животных?
Достаточно ли мы умны, чтобы судить об уме животных?

В течение большей части прошедшего столетия наука была чрезмерно осторожна и скептична в отношении интеллекта животных. Исследователи поведения животных либо не задумывались об их интеллекте, либо отвергали само это понятие. Большинство обходило эту тему стороной. Но времена меняются. Не проходит и недели, как появляются новые сообщения о сложности познавательных процессов у животных, часто сопровождающиеся видеоматериалами в Интернете в качестве подтверждения.Какие способы коммуникации практикуют животные и есть ли у них подобие речи? Могут ли животные узнавать себя в зеркале? Свойственны ли животным дружба и душевная привязанность? Ведут ли они войны и мирные переговоры? В книге читатели узнают ответы на эти вопросы, а также, например, что крысы могут сожалеть о принятых ими решениях, воро́ны изготавливают инструменты, осьминоги узнают человеческие лица, а специальные нейроны позволяют обезьянам учиться на ошибках друг друга. Ученые открыто говорят о культуре животных, их способности к сопереживанию и дружбе. Запретных тем больше не существует, в том числе и в области разума, который раньше считался исключительной принадлежностью человека.Автор рассказывает об истории этологии, о жестоких спорах с бихевиористами, а главное — об огромной экспериментальной работе и наблюдениях за естественным поведением животных. Анализируя пути становления мыслительных процессов в ходе эволюционной истории различных видов, Франс де Вааль убедительно показывает, что человек в этом ряду — лишь одно из многих мыслящих существ.* * *Эта книга издана в рамках программы «Книжные проекты Дмитрия Зимина» и продолжает серию «Библиотека фонда «Династия». Дмитрий Борисович Зимин — основатель компании «Вымпелком» (Beeline), фонда некоммерческих программ «Династия» и фонда «Московское время».Программа «Книжные проекты Дмитрия Зимина» объединяет три проекта, хорошо знакомые читательской аудитории: издание научно-популярных переводных книг «Библиотека фонда «Династия», издательское направление фонда «Московское время» и премию в области русскоязычной научно-популярной литературы «Просветитель».

Франс де Вааль

Биология, биофизика, биохимия / Педагогика / Образование и наука
Скептик. Рациональный взгляд на мир
Скептик. Рациональный взгляд на мир

Идея писать о науке для широкой публики возникла у Шермера после прочтения статей эволюционного биолога и палеонтолога Стивена Гулда, который считал, что «захватывающая действительность природы не должна исключаться из сферы литературных усилий».В книге 75 увлекательных и остроумных статей, из которых читатель узнает о проницательности Дарвина, о том, чем голые факты отличаются от научных, о том, почему высадка американцев на Луну все-таки состоялась, отчего умные люди верят в глупости и даже образование их не спасает, и почему вода из-под крана ничуть не хуже той, что в бутылках.Наука, скептицизм, инопланетяне и НЛО, альтернативная медицина, человеческая природа и эволюция – это далеко не весь перечень тем, о которых написал главный американский скептик. Майкл Шермер призывает читателя сохранять рациональный взгляд на мир, учит анализировать факты и скептически относиться ко всему, что кажется очевидным.

Майкл Брант Шермер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
Записки примата: Необычайная жизнь ученого среди павианов
Записки примата: Необычайная жизнь ученого среди павианов

Эта книга — воспоминания о более чем двадцати годах знакомства известного приматолога Роберта Сапольски с Восточной Африкой. Будучи совсем еще молодым ученым, автор впервые приехал в заповедник в Кении с намерением проверить на диких павианах свои догадки о природе стресса у людей, что не удивительно, учитывая, насколько похожи приматы на людей в своих биологических и психологических реакциях. Собственно, и себя самого Сапольски не отделяет от своих подопечных — подопытных животных, что очевидно уже из названия книги. И это придает повествованию особое обаяние и мощь. Вместе с автором, давшим своим любимцам библейские имена, мы узнаем об их жизни, страданиях, любви, соперничестве, борьбе за власть, болезнях и смерти. Не менее яркие персонажи книги — местные жители: фермеры, егеря, мелкие начальники и простые работяги. За два десятилетия в Африке Сапольски переживает и собственные опасные приключения, и трагедии друзей, и смены политических режимов — и пишет об этом так, что чувствуешь себя почти участником событий.

Роберт Сапольски

Биографии и Мемуары / Научная литература / Прочая научная литература / Образование и наука

Похожие книги

Антирак груди
Антирак груди

Рак груди – непонятная и пугающая тема. Суровые факты шокируют: основная причина смерти женщин от 25 до 75 лет – различные формы рака, и рак молочной железы – один из самых смертоносных. Это современное бедствие уже приобрело характер эпидемии. Но книга «Антирак груди» написана не для того, чтобы вы боялись. Напротив, это история о надежде.Пройдя путь от постановки страшного диагноза к полному выздоровлению, профессор Плант на собственном опыте познала все этапы онкологического лечения, изучила глубинные причины возникновения рака груди и составила программу преодоления и профилактики этого страшного заболевания. Благодаря десяти факторам питания и десяти факторам образа жизни от Джейн Плант ваша жизнь действительно будет в ваших руках.Книга также издавалась под названием «Ваша жизнь в ваших руках. Как понять, победить и предотвратить рак груди и яичников».

Джейн Плант

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература