Новый этап развития ИИ начался в 1980-х годах. В частности, правительство Японии в 1982 году запустило проект по созданию компьютеров пятого поколения (Fifth Generation Computer Project – FGCP), которые могли бы выполнять более сложные задачи («Japan,» 1984). В то время, когда предыдущие поколения компьютеров были сосредоточены на увеличении количества логических элементов в одной электронной схеме для выполнения исключительно вычислительных задач, японские ученые надеялись создать компьютеры с принципиально новыми возможностями. Из-за высокого коммерческого потенциала таких компьютеров были опасения, что Япония будет доминировать на этом рынке так же, как раньше она стала доминировать на рынке компьютерных чипов. Тем не менее проект не увенчался успехом: к 1992 году правительство Японии потратило более 850 миллионов долларов США, но не достигло желаемых прорывов на ключевых технологических направлениях (Pan, 2016). В конце концов финансирование FGCS прекратилось, и искусственный интеллект на некоторое время исчез из поля зрения общественности.
Эта неудача имела и положительную сторону, так как она продвигала идею того, что разработка ИИ должна основываться на инновациях и передовых разработках программного обеспечения. В 1997 году компания Dragon Systems выпустила NaturallySpeaking – первую универсальную программу для распознавания непрерывной речи (Shahi, 2009). Она была намного дешевле, чем предыдущие, и предоставила доступ к распознаванию речи гораздо более широкому кругу пользователей. Два месяца спустя IBM выпустила свое конкурентное программное обеспечение для распознавания голоса ViaVoice (Munro, 1998).
К концу 1990-х годов исследования ИИ были интегрированы с робототехникой и человеко-машинным интерфейсом. Ученые впервые серьезно заговорили о создании искусственных интеллектуальных «агентов», наделенных чувствами и способных выражать эмоции. Это дало начало новой области исследований «аффективных вычислений», нацеленных на анализ эмоциональных реакций человека, которые затем могут быть смоделированы машинами. Одновременно это помогло улучшить диалоговые системы (чат-боты).
В 1999 году постдокторантом Массачусетского технологического института, США, был разработан социальный робот Kismet, способный распознавать и имитировать человеческие эмоции (Overby, 2017). В том же году корпорация Sony представила AIBO – роботизированную собаку, предназначенную для того, чтобы «учиться», взаимодействуя с окружающей средой. Дизайн собаки был постепенно улучшен до такой степени, что робот-питомец мог взаимодействовать со своим владельцем, распознавать и отвечать на более чем 100 голосовых команд. В 2000 году Honda представила ASIMO, робота-гуманоида.
Еще один прорыв произошел в середине 2000-х годов, когда Nvidia представила свои новые графические процессоры. Впервые компьютеры стали достаточно мощными для обработки больших наборов данных и построения сложной архитектуры нейронной сети для широкого круга прикладных задач. Именно в этот период началось бурное использование «глубинного обучения».
Термин «машинное чтение» был впервые введен в 2006 году для описания автоматического распознавания текста. Год спустя исследователи Стэнфордского университета, США, создали ImageNet, аннотированную базу данных для распознавания визуальных объектов. Эти нововведения помогли внедрить такие технологии, как компьютерное зрение, распознавание речи и машинный перевод.
С 2010 года технологические достижения в области аппаратного и программного обеспечения прокладывают путь для повседневного использования искусственного интеллекта. Мощные процессоры и видеокарты в компьютерах, смартфонах и на планшетах позволили широкому кругу пользователей иметь постоянный доступ к программам ИИ. Например, Microsoft выпустила Kinect для Xbox 360 – первое игровое устройство, отслеживающее движение тела с помощью 3D-камеры и инфракрасного датчика.
В 2011 году Apple представила свой голосовой помощник Siri. В 2014 году Microsoft запустила Cortana, а в 2015 году Amazon презентовала Amazon Echo и его голосовой сервис Alexa. Эти виртуальные помощники использовали интерфейс на естественном языке, чтобы наблюдать, отвечать и делать выводы и рекомендации для своих пользователей.
Помощники оказались невероятно умными. В 2011 году компьютерная программа Watson участвовала в телевизионной викторине в США в форме анимированного экранного символа и выиграла у игроков-эрудитов. При этом Watson доказала, что умеет понимать естественный язык и способна быстро отвечать на сложные вопросы («History of Artificial Intelligence», 2018).