Вскоре мы вернемся к живому мозгу, но сначала давайте рассмотрим еще один способ машинного обучения, использующий немного другой принцип. Создатели польстили своим алгоритмам, назвав их «обучение с подкреплением»: это название отсылает нас к механизму обучения, который впервые был описан великим русским физиологом Павловым и глубоко изучен его последователями, в частности, Б.Ф. Скиннером из Гарвардского университета. Суть обучения с подкреплением проста: когда и если определенное поведение вознаграждается, оно начинает повторяться. Повторение поведения приводит к усилению синаптических связей в соответствующей нейронной сети. В принципе, подкрепление является формой обратного распространения, а обучение с подкреплением отличается от контролируемого обучения лишь тем, что компьютер сам генерирует себе учителя.
Компьютеры тоже можно вознаграждать. Например, компьютеру задают некую задачу. Он делает первую попытку, как правило, неудачную. Но, если попытка хотя бы немного приближает его к поставленной цели, его вознаграждают. Конечно, его не балуют каким-то лакомством, а вместо этого говорят: «Окей, увеличь синаптические веса того, что ты только что сделал». Затем компьютер делает новую попытку, на этот раз с новыми весами. Так, попытка за попыткой, компьютер уточняет свои веса, пока в конце концов не научится выполнять поставленную задачу.
Хотя этот процесс кажется примитивным, основанные на обучении с подкреплением алгоритмы уже овладели поразительно сложными умениями: они научились играть в шахматы и даже в го (игру, которая по сложности превосходит шахматы). Эти компьютеры не только играют на сверхчеловеческом уровне (они уже доказали свою способность победить любого человека), но и
Эта удивительная способность применима не только к настольным играм, но к множеству других задач. В одной из своих лекций Дэвид Силвер из команды Google AI показал видео, на котором AlphaZero дистанционно управляет игрушечным вертолетом, заставляя машинку выполнять фигуры высшего пилотажа. Наблюдая за акробатическими трюками вертолета в воздухе, вы готовы поверить всем мрачным прорицаниям по поводу ИИ.
Но может ли AlphaZero соперничать в уме с моим внуком? Нет, даже отдаленно (если только мой внук не решит сразиться с ним в шахматы). Компьютеру нужна очень узко поставленная задача. Его мозг намного больше, чем мозг моего внука, и для работы ему требуется куда больше энергии, чем тарелка молочной каши. По оценке Кэтрин Ву в журнале
Может ли человеческий мозг выполнять те же манипуляции, что и глубокие нейронные сети или AlphaZero? Разумеется, может, хотя и гораздо медленнее. Человеческий мозг – это компьютер, созданный за миллионы лет эволюции, которая довела до совершенства и миниатюризировала его синаптические связи. Если что-то может быть сделано громоздкими компьютерными микросхемами, это может быть сделано и мозгом.
Разработчики ИИ прекрасно осознают, что на сегодняшний день мой внук превосходит их компьютеры по всем параметрам, поэтому трудятся в поте лица. Я думаю, что машины в конце концов станут чертовски умными – но что именно они научатся делать, пока мы можем только гадать. Сегодня ведется разработка удивительных способов машинного обучения без учителя. Вопрос только в том, сколько времени это займет и насколько машины смогут сымитировать работу мозга. И, самое главное: сможет ли компьютерное оборудование хотя бы немного приблизиться в экономичности к нейронному? Я без страха смотрю в будущее. На самом деле именно фактор энергопотребления позволяет мне не бояться того, что однажды компьютерный сверхразум захватит мир.