Читаем Идиот или гений? Как работает и на что способен искусственный интеллект полностью

Как бы вы ни относились к видеоиграм, если вы предпочитаете “понятную и ограниченную” среду “реальному миру”, вам стоит подумать о создании программ ИИ для видеоигр компании Atari, разработанных в 1970-х и 1980-х годах. Именно этим решили заняться специалисты DeepMind. В зависимости от того, сколько вам лет и какие у вас интересы, вы, возможно, помните некоторые классические игры: Asteroids, Space Invaders, Pong, Ms. Pac-Man. Знакомые названия? Простая графика и управление с помощью джойстика делали эти игры достаточно простыми, чтобы их могли освоить дети, но достаточно сложными, чтобы взрослые тоже не теряли к ним интерес.

Рассмотрим однопользовательскую игру Breakout, показанную на рис. 27. В ней игрок с помощью джойстика передвигает “ракетку” (белый прямоугольник в правом нижнем углу) из стороны в сторону. “Мяч” (белый кружок) отскакивает от ракетки и ударяется о разноцветные прямоугольные “кирпичи”. Мяч также отскакивает от серых “стен” по бокам. Когда мяч попадает по одному из кирпичей (узорчатые прямоугольники), кирпич исчезает, игрок получает очки, а мяч отскакивает назад. Кирпичи с верхних рядов приносят больше очков, чем с нижних. Когда мяч ударяется о “землю” (нижнюю часть экрана), игрок теряет одну из пяти “жизней”, но если у него еще остались “жизни”, то в игру вводится новый мяч. Цель игрока – набрать максимум очков за пять жизней.

Любопытно, что игра Breakout появилась, когда Atari попробовала создать однопользовательскую версию успешной игры Pong. Разработку и внедрение Breakout в 1975 году поручили двадцатиоднолетнему сотруднику по имени Стив Джобс. Да, тому самому Стиву Джобсу, который впоследствии стал одним из основателей Apple. Поскольку Джобсу не хватало навыков, он привлек к работе над Breakout своего друга Стива Возняка, которому тогда было двадцать пять (и который впоследствии стал вторым основателем Apple). Возняк и Джобс спроектировали Breakout за четыре ночи, садясь за работу вечером, когда у Возняка кончался рабочий день в компании Hewlett-Packard. Вскоре Breakout, как и Pong, завоевала огромную популярность у геймеров.

Если вы тоскуете по былым временам, но у вас не сохранилось старой игровой приставки Atari 2600, в интернете есть множество сайтов, где все еще можно сыграть в Breakout и другие игры. В 2013 году группа канадских исследователей ИИ выпустила программную платформу Arcade Learning Environment (“Среда обучения аркадным играм”), которая облегчила тестирование систем машинного обучения на 49 таких играх[185]. Именно эту платформу специалисты DeepMind использовали в своей работе по обучению с подкреплением.

<p>Глубокое Q-обучение</p></span><span>

Специалисты DeepMind совместили обучение с подкреплением – в частности, Q-обучение – с глубокими нейронными сетями, чтобы создать систему, которая сумеет научиться играть в видеоигры Atari. Они назвали свой подход глубоким Q-обучением. Я объясню принцип работы глубокого Q-обучения на примере Breakout, но в DeepMind использовали один и тот же метод для всех игр Atari, с которыми велась работа. Впереди нас ждет немало технических подробностей, так что готовьтесь (или переходите к следующему разделу).

Вспомните, как мы использовали Q-обучение для тренировки собаки-робота Рози. В ходе эпизода Q-обучения на каждой итерации обучающийся агент (Рози) делает следующее: определяет свое текущее состояние, сверяет это состояние с матрицей Q, выбирает действие на основе ценностей из матрицы, выполняет это действие, возможно, получает сигнал подкрепления и – обучаясь – обновляет ценности в своей матрице Q.

Глубокое Q-обучение DeepMind работает по тому же принципу, но место матрицы Q занимает сверточная нейронная сеть. По примеру DeepMind я назову ее глубокой Q-сетью (DQN). Показанная на рис. 28 DQN напоминает ту, что использовалась DeepMind для обучения игре Breakout (но при этом проще нее). Входным сигналом для DQN служит состояние системы в конкретный момент времени, которое здесь определяется текущим “кадром” – положением пикселей на текущем снимке экрана – и тремя предыдущими кадрами (положением пикселей на трех предыдущих шагах). Такое определение состояния обеспечивает систему небольшим объемом памяти, что оказывается здесь полезным. На выходе сеть выдает расчетную ценность каждого возможного действия во входном состоянии. Возможные действия таковы: передвинуть ракетку Влево, передвинуть ракетку Вправо или выполнить NOP (“холостую команду”, то есть не передвигать ракетку). Сама сверточная нейронная сеть практически не отличается от той, которую я описала в главе 4. Вместо ценностей в матрице Q, как в примере с Рози, в глубоком Q-обучении система узнает веса в этой сети.

Рис. 28. Схема глубокой Q-сети (DQN) для Breakout

Перейти на страницу:

Все книги серии Книжные проекты Дмитрия Зимина

Достаточно ли мы умны, чтобы судить об уме животных?
Достаточно ли мы умны, чтобы судить об уме животных?

В течение большей части прошедшего столетия наука была чрезмерно осторожна и скептична в отношении интеллекта животных. Исследователи поведения животных либо не задумывались об их интеллекте, либо отвергали само это понятие. Большинство обходило эту тему стороной. Но времена меняются. Не проходит и недели, как появляются новые сообщения о сложности познавательных процессов у животных, часто сопровождающиеся видеоматериалами в Интернете в качестве подтверждения.Какие способы коммуникации практикуют животные и есть ли у них подобие речи? Могут ли животные узнавать себя в зеркале? Свойственны ли животным дружба и душевная привязанность? Ведут ли они войны и мирные переговоры? В книге читатели узнают ответы на эти вопросы, а также, например, что крысы могут сожалеть о принятых ими решениях, воро́ны изготавливают инструменты, осьминоги узнают человеческие лица, а специальные нейроны позволяют обезьянам учиться на ошибках друг друга. Ученые открыто говорят о культуре животных, их способности к сопереживанию и дружбе. Запретных тем больше не существует, в том числе и в области разума, который раньше считался исключительной принадлежностью человека.Автор рассказывает об истории этологии, о жестоких спорах с бихевиористами, а главное — об огромной экспериментальной работе и наблюдениях за естественным поведением животных. Анализируя пути становления мыслительных процессов в ходе эволюционной истории различных видов, Франс де Вааль убедительно показывает, что человек в этом ряду — лишь одно из многих мыслящих существ.* * *Эта книга издана в рамках программы «Книжные проекты Дмитрия Зимина» и продолжает серию «Библиотека фонда «Династия». Дмитрий Борисович Зимин — основатель компании «Вымпелком» (Beeline), фонда некоммерческих программ «Династия» и фонда «Московское время».Программа «Книжные проекты Дмитрия Зимина» объединяет три проекта, хорошо знакомые читательской аудитории: издание научно-популярных переводных книг «Библиотека фонда «Династия», издательское направление фонда «Московское время» и премию в области русскоязычной научно-популярной литературы «Просветитель».

Франс де Вааль

Биология, биофизика, биохимия / Педагогика / Образование и наука
Скептик. Рациональный взгляд на мир
Скептик. Рациональный взгляд на мир

Идея писать о науке для широкой публики возникла у Шермера после прочтения статей эволюционного биолога и палеонтолога Стивена Гулда, который считал, что «захватывающая действительность природы не должна исключаться из сферы литературных усилий».В книге 75 увлекательных и остроумных статей, из которых читатель узнает о проницательности Дарвина, о том, чем голые факты отличаются от научных, о том, почему высадка американцев на Луну все-таки состоялась, отчего умные люди верят в глупости и даже образование их не спасает, и почему вода из-под крана ничуть не хуже той, что в бутылках.Наука, скептицизм, инопланетяне и НЛО, альтернативная медицина, человеческая природа и эволюция – это далеко не весь перечень тем, о которых написал главный американский скептик. Майкл Шермер призывает читателя сохранять рациональный взгляд на мир, учит анализировать факты и скептически относиться ко всему, что кажется очевидным.

Майкл Брант Шермер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
Записки примата: Необычайная жизнь ученого среди павианов
Записки примата: Необычайная жизнь ученого среди павианов

Эта книга — воспоминания о более чем двадцати годах знакомства известного приматолога Роберта Сапольски с Восточной Африкой. Будучи совсем еще молодым ученым, автор впервые приехал в заповедник в Кении с намерением проверить на диких павианах свои догадки о природе стресса у людей, что не удивительно, учитывая, насколько похожи приматы на людей в своих биологических и психологических реакциях. Собственно, и себя самого Сапольски не отделяет от своих подопечных — подопытных животных, что очевидно уже из названия книги. И это придает повествованию особое обаяние и мощь. Вместе с автором, давшим своим любимцам библейские имена, мы узнаем об их жизни, страданиях, любви, соперничестве, борьбе за власть, болезнях и смерти. Не менее яркие персонажи книги — местные жители: фермеры, егеря, мелкие начальники и простые работяги. За два десятилетия в Африке Сапольски переживает и собственные опасные приключения, и трагедии друзей, и смены политических режимов — и пишет об этом так, что чувствуешь себя почти участником событий.

Роберт Сапольски

Биографии и Мемуары / Научная литература / Прочая научная литература / Образование и наука

Похожие книги

Антирак груди
Антирак груди

Рак груди – непонятная и пугающая тема. Суровые факты шокируют: основная причина смерти женщин от 25 до 75 лет – различные формы рака, и рак молочной железы – один из самых смертоносных. Это современное бедствие уже приобрело характер эпидемии. Но книга «Антирак груди» написана не для того, чтобы вы боялись. Напротив, это история о надежде.Пройдя путь от постановки страшного диагноза к полному выздоровлению, профессор Плант на собственном опыте познала все этапы онкологического лечения, изучила глубинные причины возникновения рака груди и составила программу преодоления и профилактики этого страшного заболевания. Благодаря десяти факторам питания и десяти факторам образа жизни от Джейн Плант ваша жизнь действительно будет в ваших руках.Книга также издавалась под названием «Ваша жизнь в ваших руках. Как понять, победить и предотвратить рак груди и яичников».

Джейн Плант

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература