Вам может показаться, что сеть со случайными весами провалится в видеоигре
Насколько мне известно, никто не пробовал применить подобный случайный поиск весов в сети для го. Я бы очень удивилась, если бы это сработало. Учитывая, как долго исследователи пытались спроектировать программу для игры в го, я уверена, что го входит в число поистине сложных для ИИ областей. Однако, как отметил Гэри Маркус, люди играют во множество игр, которые для ИИ еще сложнее го. В качестве яркого примера Маркус приводит игру в шарады[219]
, которая, если задуматься, требует развитых зрительных, лингвистических и социальных способностей, значительно превосходящих способности любой современной системы ИИ. Если бы вы могли сконструировать робота, который смог бы играть в шарады, скажем, на уровне шестилетнего ребенка, то, думаю, вы были бы вправе сказать, что покорили несколько “самых сложных областей” ИИ.Чему научились эти системы?
Как обычно происходит с глубоким обучением, человеку сложно понять, чему именно научились нейронные сети, которые использовались в игровых системах. Читая предыдущие разделы, вы, возможно, заметили некоторый антропоморфизм моих описаний – так, я сказала: “Система
Я не единственная прибегаю к такому языку, описывая поведение систем ИИ, но эта привычка таит в себе опасность. За нашими словами часто кроются бессознательные допущения, которые не всегда оказываются верными для компьютерных программ. Правда ли, что разработанная
Система этому не научилась – она не понимает, что такое тоннель или стена, а потому просто запомнила конкретные обстоятельства для определенных сценариев. Тесты на перенос, в которых система глубокого обучения с подкреплением получает сценарии, имеющие незначительные отличия от тех, что рассматривались на стадии обучения, показывают, что решения на основе глубокого обучения с подкреплением часто оказываются крайне поверхностными[220]
.Маркус ссылается на несколько исследований, в которых ученые проверяли, насколько хорошо системы глубокого Q-обучения с подкреплением переносят свои знания при внесении некоторых – даже незначительных – изменений в игру. Так, одна группа исследователей изучала систему, напоминающую программу
Вот лишь два примера неспособности глубокого Q-обучения к генерализации, с которой легко справляются люди. Насколько мне известно, ни одно исследование не проверяло, понимает ли программа