Вместо того чтобы использовать метод проб и ошибок, предложенный Селфриджем, Фукусима использовала вариант обучения, который не требует знания правильных ответов. В этой форме обучения модели просто показывают серию изображений, не сообщая, что на них изображено. Активность всех искусственных нейронов рассчитывается в ответ на каждое изображение, и связи между нейронами меняются в зависимости от того, насколько они активны (это может напомнить вам о гебистском стиле обучения). Например, если нейрон был очень активен в ответ на определенное изображение, то связи с его очень активными входами будут укрепляться. В результате этот нейрон будет сильно реагировать на это и подобные изображения в будущем. Таким образом, нейроны реагируют на определенные формы, и разные нейроны расходятся, чтобы иметь разные реакции. Таким образом, сеть способна улавливать разнообразные паттерны во входных изображениях.
В итоге модель Фукусимы состояла из трех слоев простых и сложных клеток и обучалась с помощью сгенерированных компьютером изображений цифр от нуля до четырех. Он назвал эту сеть "Неокогнитрон" и опубликовал результаты ее работы в журнале Biological Cybernetics в 1980 году.
В своих оригинальных работах Хьюбел и Визель подчеркивали, что их система классификации и номенклатура не должны восприниматься как евангелие. Мозг устроен очень сложно, и разделение нейронов всего на две категории никак не может отразить все разнообразие реакций и функций. Просто для удобства и целесообразности общения они действовали именно таким образом. Однако Фукусима добился успеха, сделав именно то, от чего предостерегали Хьюбел и Визель: он свел всю сложность зрительной системы мозга к двум очень простым вычислениям. Он принял эти описания за истинные или достаточно истинные и даже расширил их за пределы того, что они должны были описывать
Эта практика - разрушения и последующего расширения, стряхивания листьев с дерева и использования их для строительства дома - это то, что, как известно всем теоретикам и инженерам, необходимо для достижения прогресса. Фукусима хотел создать функционирующую зрительную систему в компьютере. Хьюбел и Визель дали описание зрительной системы мозга в первом приближении. Иногда первого приближения бывает достаточно.
* * *
В 1987 году, как и в любой другой год, жители Буффало, штат Нью-Йорк, отправляли через местное почтовое отделение бесчисленные счета, поздравительные открытки и письма. Жители города не знали, что, когда они вписывали в конверт пятизначный почтовый индекс получателя, этот почерк будет увековечен - оцифрован и сохранен на компьютерах по всей стране на долгие годы. Он станет частью базы данных для исследователей, пытающихся научить компьютеры читать человеческий почерк и, в свою очередь, произвести революцию в искусственном зрении.
Некоторые из исследователей, работавших над этим проектом, находились в Bell Labs, исследовательской компании, принадлежащей телекоммуникационной компании AT&T, расположенной в пригороде Нью-Джерси. Среди группы, состоящей в основном из физиков, был 28-летний французский компьютерщик по имени Янн ЛеКун. ЛеКун читал о Фукусиме и его Neocognitron и понял, что простая повторяющаяся архитектура этой модели может решить многие сложные проблемы зрения.
Однако ЛеКун также понимал, что необходимо изменить способ обучения модели связям. В частности, он хотел вернуться к подходу Селфриджа и предоставить модели доступ к изображениям, сопряженным с правильными метками о том, какая цифра на них изображена. Поэтому он изменил некоторые математические детали модели, чтобы сделать ее пригодной для другого типа обучения. При таком типе обучения, если модель неправильно классифицирует изображение (например, обозначает двойку как шестерку), все связи в модели - эти сетки чисел, определяющие, какие паттерны ищутся, - обновляются таким образом, чтобы снизить вероятность неправильной классификации этого изображения в будущем. Таким образом, модель учится тому, какие паттерны важны для идентификации цифр. Это может показаться знакомым, потому что ЛеКун использовал алгоритм обратного распространения, описанный в главе 3. Проделайте это с большим количеством изображений, и модель в целом станет довольно хорошо классифицировать изображения рукописных цифр, даже те, которые она никогда раньше не видела.
ЛеКун и его коллеги-исследователи представили впечатляющие результаты работы своей модели, обученной на тысячах цифр Буффало, в 1989 году. Так родилась "конволюционная нейронная сеть" - название, данное этому стилю модели.