На мой взгляд, в корне всего этого лежит проблема понимания. Взгляните на рис. 18, где AlexNet принимает школьный автобус за страуса. Почему такое вряд ли случилось бы с человеком? Хотя AlexNet очень хорошо справляется с классификацией изображений ImageNet, мы, люди, смотрим на объекты и понимаем многие вещи, которые не понимает ни AlexNet, ни любая другая современная система ИИ. Мы знаем, как выглядят объекты в трехмерном мире, и можем представить их форму, посмотрев на двухмерную фотографию. Мы знаем, какую функцию выполняет конкретный объект, каким образом его части задействованы в выполнении этой функции и в каких контекстах он обычно появляется. Глядя на объект, мы вспоминаем, как смотрели на такие же объекты в других обстоятельствах и с других ракурсов, а также воскрешаем в памяти иные сенсорные модальности (каков этот объект на ощупь, какой у него запах, возможно, какой звук он издает при падении и т. д.). Все эти фоновые знания питают человеческую способность надежно распознавать конкретный объект. Даже самые успешные системы компьютерного зрения не обладают таким пониманием и надежностью, которую оно обеспечивает.
Я слышала, как некоторые исследователи ИИ утверждают, что люди тоже уязвимы для “контрпримеров” особого типа – оптических иллюзий. Как и AlexNet, считающая школьный автобус страусом, люди делают ошибки восприятия (например, нам кажется, что верхний отрезок на рис. 21 длиннее нижнего, хотя на самом деле их длина одинакова). Однако человеческие ошибки отличаются от ошибок сверточных нейронных сетей: в процессе эволюции мы научились очень хорошо распознавать объекты в повседневной жизни, поскольку от этого зависит наше выживание. В отличие от современных сверточных нейронных сетей, люди (и животные) воспринимают мир, опираясь на свои когнитивные способности – своеобразное контекстно-зависимое понимание, которое я описала выше. Кроме того, сверточные нейронные сети, применяемые в современных системах компьютерного зрения, как правило, полностью выстроены на прямых связях, в то время как человеческая зрительная система имеет гораздо больше обратных, чем прямых связей. Хотя нейробиологи пока не понимают функцию этих обратных связей, можно предположить, что хотя бы некоторые из них защищают систему от уязвимости к контрпримерам, свойственной сверточным нейронным сетям. Почему бы не обеспечить сверточные нейронные сети такими обратными связями? Сейчас в этой области ведутся активные исследования, но пока создание сетей с обратной связью остается очень сложной задачей и не приносит таких успехов, как создание сетей с прямой связью.
Рис. 21. Оптическая иллюзия для людей: длина горизонтальных отрезков A и B одинакова, но большинству людей кажется, что отрезок A длиннее отрезка B
Исследователь ИИ из Университета Вайоминга Джефф Клюн провел провокационную аналогию, отметив, что по-прежнему “очень интересно, что такое глубокое обучение – «настоящий разум» или Умный Ганс”[153]. Умным Гансом звали коня, который жил в начале XX века в Германии и – по утверждению владельца – умел производить арифметические операции и понимал немецкий язык. Конь отвечал на вопросы вроде “Сколько будет пятнадцать разделить на три?”, отстукивая копытом верный ответ. Когда Умный Ганс прославился на весь мир, тщательное расследование выявило, что на самом деле конь не понимал вопросов и математических концепций, а стучал копытом в ответ на едва заметные, бессознательные подсказки человека, который задавал вопрос. С тех пор Умным Гансом называют любого человека (или программу!), который, казалось бы, понимает, что делает, но на самом деле просто реагирует на нечаянные подсказки учителя. Можно ли сказать, что глубокое обучение демонстрирует “истинное понимание”, или же оно, как компьютерный Умный Ганс, реагирует на мелкие подсказки в данных? В настоящее время в среде ИИ не угасают ожесточенные споры об этом, и ситуация осложняется тем, что исследователи ИИ порой расходятся в своих представлениях об “истинном понимании”.