В 2012 году наступил переломный год для конволюционных нейронных сетей. Хотя технически достижения команды из Торонто были всего лишь количественным скачком - увеличением числа нейронов и изображений, - ошеломляющее повышение производительности качественно изменило ситуацию в этой области. Увидев, на что они способны, исследователи начали изучать конволюционные нейронные сети и пытаться сделать их еще лучше. Обычно это происходило в том же направлении: они становились больше, но были найдены и важные изменения в их структуре и способах обучения.
К 2015 году конволюционная нейронная сеть достигла уровня производительности, ожидаемого от человека в соревновании по классификации изображений (что на самом деле не является 100-процентным показателем: некоторые изображения могут быть запутанными). И теперь конволюционные нейронные сети составляют основу практически любого программного обеспечения для обработки изображений: распознавание лиц в социальных сетях, обнаружение пешеходов в самоуправляемых автомобилях и даже автоматическая диагностика заболеваний по рентгеновским снимкам. В забавном случае конволюционные нейронные сети даже использовались неврологами для автоматического определения местоположения нейронов на снимках тканей мозга. Искусственные нейронные сети теперь смотрят на настоящие.
Похоже, инженеры сделали разумный ход, обратившись к мозгу за вдохновением для создания визуальной системы. Внимание Фукусимы к функциям нейронов - и сведение этих функций к простым операциям - принесло свои плоды. Но когда он делал первые шаги в разработке этих моделей, вычислительных ресурсов и данных для их создания просто не было. Спустя десятилетия следующее поколение инженеров подхватило проект и довело его до конца. В результате современные конволюционные нейронные сети наконец-то могут решать многие задачи, которые изначально ставились в летнем проекте Массачусетского технологического института в 1966 году.
Но так же, как "Пандемониум" Селфриджа помог вдохновить нейробиологов-визуалистов, отношения между конволюционными нейронными сетями и мозгом не ограничиваются только одним путем. Неврологи получают выгоду от усилий, которые компьютерные ученые прилагают к созданию моделей, способных решать реальные визуальные задачи. Это связано с тем, что большие, тщательно обученные конволюционные нейронные сети не только хорошо распознают объекты на изображениях, но и предсказывают, как мозг будет реагировать на эти изображения.
* * *
Обработка зрительных сигналов начинается в первичной зрительной коре - именно там Хьюбел и Визель делали свои записи, - но после этого в процесс вовлекается множество областей. Первичная зрительная кора посылает связи во (вы уже догадались) вторичную зрительную кору. И после еще нескольких пересылок информация попадает в височную кору, расположенную сразу за висками.
Височная кора головного мозга уже давно связана с распознаванием объектов. Еще в 1930-х годах исследователи заметили, что повреждение этой области мозга приводит к странному поведению. Пациенты с повреждением височной коры плохо решают, на какие вещи важно обратить внимание, и поэтому легко отвлекаются. Они также не проявляют нормальной эмоциональной реакции на изображения; они могут видеть картины, которые большинству людей показались бы ужасающими, и почти не моргать. А когда они хотят изучить предметы, они могут не смотреть на них, а класть их в рот.
Понимание этой области мозга уточнялось десятилетиями тщательного наблюдения за пациентами или животными с поражениями мозга и, в конечном счете, путем регистрации активности ее нейронов. Это привело к выводу, что подчасть височной коры - "нижняя" часть в нижней части, также называемая "ИТ", - является основным местом для понимания объектов. У людей с повреждением ИТ в основном нормальное поведение и зрение, но есть более специфическая проблема - они не могут правильно называть или распознавать объекты; например, они могут не узнавать лица друзей или путать идентичность предметов, которые кажутся похожими.
Соответственно, нейроны в этой области реагируют на объекты. Некоторые нейроны имеют четкие предпочтения: один может реагировать на часы, другой - на дом, третий - на банан и т. д. Но другие клетки менее предсказуемы. Они могут предпочитать части объектов или одинаково реагировать на два разных объекта, имеющих некоторые общие черты. Некоторым клеткам также важен угол, под которым виден объект: возможно, они больше всего реагируют, если объект виден прямо, но другие клетки более снисходительны и реагируют на объект практически под любым углом. Некоторым важен размер и расположение объекта, другим - нет. В общем, ИТ - это целый мешок нейронов, заинтересованных в объектах. Хотя их не всегда легко интерпретировать, такие реакции, ориентированные на объекты, делают ИТ похожим на вершину иерархии зрительных процессов, последнюю остановку на экспрессе зрительной системы.