Эта форма провала особенно опасна, потому что система выглядит работающей в одном контексте, и проваливается при смене контекста. Создатели «определителя танков» обучали свою нейронную сеть до тех пор, пока она не начала правильно распознавать данные, затем проверили сеть на дополнительных данных (без дальнейшего обучения). К несчастью, данные и для обучения, и для проверки содержали предположение, которое относилось ко всей информации, использованной в разработке, но не к ситуациям реального мира, где нейронная сеть была призвана работать. В истории с определителем танков это предположение состояло в том, что танки фотографируются в облачные дни.
Предположим, мы стремимся создать самоусиливающийся ИИ. Этот ИИ будет иметь фазу развития, когда люди-программисты будут сильнее его – не только в смысле физического контроля над электропитанием ИИ, но в смысле, что люди-программисты умнее, хитрее и более творческие, чем этот ИИ. Мы предполагаем, что в течение фазы развития программисты будут обладать способностью изменять исходный код ИИ без его согласия. После этого момента мы должны полагаться на установленную до того систему целей, потому что, если ИИ заработает достаточно непредсказуемым образом, то он сможет активно сопротивляться нашим попыткам корректировать его – и если ИИ умнее человека, то, скорее всего, он победит.
Попытки контролировать растущий ИИ посредством тренировки нейронной сети, чтобы создать его систему целей, сталкиваются с проблемой значительной смены контекста при переходе от стадии развития ИИ к стадии после его развития. На стадии развития ИИ может быть только способен создавать реакции, попадающие в категорию «улыбающихся человеческих лиц», решая предоставленные людьми задачи, как задумали его создатели. Вскоре, когда ИИ станет сверхчеловечески интеллектуален и создаст свою собственную нанотехнологическую инфраструктуру, он станет способен создавать столь же притягательные для него стимулы, покрывая всю галактику маленькими улыбающимися лицами.
Таким образом, этот ИИ кажется работающим правильно на стадии разработки, но создаёт катастрофические результаты, когда он становится умнее программистов(!)
Есть соблазн подумать: «Но наверняка ИИ будет знать, что это не то, что мы имеем в виду?» Но код не дан ИИ, чтобы он его просмотрел и вернул, если выяснится, что он работает неправильно. Код и есть ИИ. Возможно, приложив достаточно усилий и понимания, мы можем написать код, который следит, чтобы мы не написали неправильный код – легендарная DWIM-инструкция, которая среди программистов означает делай-то-что-я-имею-в-виду. (Do-What-I-Mean. (Raymond, 2003).) Но требуются усилия, чтобы описать механику работы DWIM, и нигде в предложении Хиббарда нет упоминаний о создании ИИ, который делает то, что мы имеем в виду, а не то, что мы говорим. Современные чипы не выполняют DWIM над своим кодом; это не автоматическое свойство. И если у вас проблемы с самим DWIM, вы пострадаете от последствий. Предположим, например, что DWIM был определён так, чтобы максимизировать удовлетворение программиста от своего кода; когда этот код запустится как сверхинтеллект, он может переписать мозги программиста, чтобы он был максимально удовлетворён этим кодом. Я не говорю, что это неизбежно; я только говорю, что Делай-то-что-я-имею-в-виду – это большая и не тривиальная техническая проблема на пути к Дружественному ИИ.
7. Темпы усиления интеллекта.
С точки зрения глобальных рисков, одно из наиболее критических обстоятельств в связи с ИИ, это то, что ИИ может усилить свой интеллект чрезвычайно быстро. Очевидная причина подозревать такую возможность – это рекурсивное само-улучшение (Good, 1965). ИИ становится умнее, в том числе умнее в отношении написания внутренней когнитивной функции ИИ, так что ИИ может переписать свою существующую когнитивную функцию, чтобы она работала лучше. Это сделает ИИ ещё умнее, в том числе умнее в отношении задачи переделывания себя, так что он сделает ещё больше улучшений.
Люди по большому счёту не могут улучшать себя рекурсивно. В ограниченном объёме мы себя улучшаем: мы учимся, мы тренируемся, мы затачиваем свои навыки и знания. В некоторой степени эти самоулучшения улучшают нашу способность улучшаться. Новые открытия могут увеличить нашу способность делать дальнейшие открытия – в этом смысле знание питает само себя. Но есть более низкий уровень, которого мы даже не коснулись. Мы не переписываем человеческий мозг. Мозг является, в конечном счёте, источником открытий, и наши мозги сейчас почти такие же, как они были 10 тысяч лет назад.