Джеффри получил степень бакалавра психологии в Кембридже и защитил докторскую диссертацию по ИИ в Эдинбургском университете вместе с Кристофером Лонге-Хиггинсом, выдающимся химиком, который изобрел первую модель нейронной сети с ассоциативной памятью. В то время доминирующая парадигма искусственного интеллекта основывалась на написании программ, которые использовали символы, логику и правила, кодифицировавшими интеллектуальное поведение. Когнитивные психологи использовали этот подход для понимания человеческого восприятия и в особенности языков. Джеффри плыл против течения. Никто не мог предположить, что однажды он выяснит, как работает мозг. Его лекции убедительны, он может объяснить абстрактные математические концепции с ясностью, которая требует лишь незначительных познаний в математике. Его остроумие и сдержанный юмор очаровательны. Джеффри по натуре склонен к соперничеству, особенно когда дело касается мозга.
Когда мы впервые встретились, Джеффри был научным сотрудником Калифорнийского университета в Сан-Диего в группе параллельной распределенной обработки под руководством Дэвида Румельхарта и Джея Макклелланда. Джеффри считал, что сети простых процессоров, работающих параллельно и изучающих примеры, — лучший способ понять восприятие. Он был центральной фигурой в вышеупомянутой группе, исследовавшей, как слова и язык могут восприниматься в качестве распространения функции, распределенной по многочисленным узлам сети.
Традиционный подход к языку в когнивистике (науке о мышлении) основан на символических представлениях. Слово «чашка», например, является символом, который обозначает все чашки в целом. Прелесть символов в том, что они позволяют нам упрощать сложные идеи и работать уже с ними. Однако у символов есть проблема: они настолько сжаты, что их трудно использовать в реальном мире, где чашки бывают разных форм и размеров. Нет логической программы, которая могла бы определить, что конкретно является чашкой, или отыскать ее на картинке, в то время как люди справляются с этим весьма успешно.
Абстрактные понятия, например, справедливость или мир, определить еще труднее. Альтернатива — распределение чашек с помощью схем активности большой популяции нейронов, которые смогут зафиксировать как сходства, так и различия. Это наделяет символ богатой внутренней структурой, отражающей его суть. Проблема в том, что в 1980 году никто не знал, как создать такую внутреннюю структуру.
Мы с Джеффри были не единственными, кто в 1980-х годах верил, что нейронная сеть сможет достичь интеллектуального поведения. Ряд ученых по всему миру, большинство в одиночку, разработали специализированные модели нейронной сети. Например, Кристоф фон дер Мальсбург создал модель распознавания образов, основанную на связи нейронов, передающих импульс[72]
. Позже он показал, как эта система может распознавать лица на фотографиях[73]. Кунихико Фукусима из Осакского университета в Японии изобрел неокогнитрон[74] — многослойную сеть, основанную на строении зрительной системы. Эта сеть использовала сверточные фильтры и простейшую модель пластичности Хебба и была прямым предшественником сетей глубокого обучения. Теуво Кохонен, инженер-электрик из Хельсинского университета в Финляндии, разработал самоорганизующуюся сеть, которая могла научиться группировать сходные входные данные, например звуки речи, в двумерную карту так, что разные звуки будут представлены на этой карте разными процессорами, где аналогичная входная информация активирует соседние области выхода[75]. Основным преимуществом сети Кохонена было отсутствие необходимости обозначать каждую категорию входных данных. Создание специальных меток для обучения перцептрона и других контролируемых сетей стоит дорого. У Кохонена был только один шанс, и он вложил в него все силы.Многообещающая ранняя попытка систематизировать вероятностные сети принадлежала Джуде Перлу из Калифорнийского университета в Лос-Анджелесе. Он представил сети доверия, которые связывают элементы в сети для определения вероятности — например, вероятности того, что трава мокрая из-за оросителя или потому что прошел дождь[76]
. Это мощная основа для отслеживания причинно-следственных связей в окружающем нас мире, однако у нее был роковой недостаток: трудно определить все вероятности. Для автоматического нахождения вероятностей с использованием алгоритмов обучения требовался прорыв. Это стимулировало создание алгоритмов обучения нейронных сетей, речь о которых пойдет во второй части книги.