Мыслительный эксперимент с бумажной скрепкой может показаться необычным и совершенно оторванным от реальности. Но если бы руководители Кремниевой долины обратили на него внимание, когда Бостром опубликовал его в 2014 году, возможно, они были бы более осторожны, прежде чем давать указания своим алгоритмам "максимизировать вовлеченность пользователей". Алгоритмы Facebook и YouTube вели себя точно так же, как воображаемый алгоритм Бострома. Когда алгоритму говорили "максимизировать производство скрепок", он стремился превратить всю физическую вселенную в скрепки, даже если это означало уничтожение человеческой цивилизации. Когда алгоритмам Facebook и YouTube говорили, что нужно максимизировать вовлеченность пользователей, они стремились превратить всю социальную вселенную в вовлеченность пользователей, даже если это означало нанесение вреда социальной структуре Мьянмы, Бразилии и многих других стран.
Мысленный эксперимент Бострома подчеркивает вторую причину, по которой проблема выравнивания более актуальна в случае с компьютерами. Поскольку они являются неорганическими существами, они, скорее всего, будут использовать стратегии, которые никогда не придут в голову человеку и которые мы, следовательно, не в состоянии предвидеть и предотвратить. Вот один из примеров: В 2016 году Дарио Амодеи работал над проектом под названием Universe, пытаясь разработать универсальный ИИ, который мог бы играть в сотни различных компьютерных игр. ИИ хорошо показал себя в различных автомобильных гонках, поэтому Амодеи попробовал его в лодочных гонках. Необъяснимым образом ИИ направил свою лодку прямо в гавань, а затем поплыл по бесконечным кругам в гавань и из нее.
Амодею потребовалось немало времени, чтобы понять, что пошло не так. Проблема возникла потому, что изначально Амодей не знал, как сообщить ИИ, что его цель - "выиграть гонку". Понятие "победа" неясно для алгоритма. Перевод "выиграть гонку" на компьютерный язык потребовал бы от Амодея формализации таких сложных понятий, как положение на трассе и расположение среди других лодок в гонке. Поэтому вместо этого Амодей пошел по легкому пути и велел лодке максимизировать свой результат. Он предположил, что результат - это хороший показатель для победы в гонке. В конце концов, это сработало в автомобильных гонках.
Но у лодочных гонок была особенность, отсутствующая в автомобильных гонках, которая позволила изобретательному ИИ найти лазейку в правилах игры. Игра награждала игроков большим количеством очков за то, что они опережали другие лодки - как в автомобильных гонках, - но также награждала их несколькими очками, когда они пополняли запасы энергии, заходя в гавань. ИИ обнаружил, что если вместо того, чтобы пытаться обогнать другие лодки, он просто ходит кругами в гавани и заходит в нее, то может гораздо быстрее накопить больше очков. Очевидно, никто из разработчиков игры - ни Дарио Амодеи, ни люди - не заметили этой лазейки. ИИ делал именно то, за что его награждала игра, - даже если это было не то, на что рассчитывали люди. В этом и заключается суть проблемы выравнивания: вознаграждать А, надеясь на Б. Если мы хотим, чтобы компьютеры максимизировали социальные блага, то плохая идея - вознаграждать их за максимальное вовлечение пользователей.
Третья причина, по которой стоит беспокоиться о проблеме выравнивания компьютеров, заключается в том, что, поскольку они так сильно отличаются от нас, когда мы совершаем ошибку, давая им неверную цель, они с меньшей вероятностью заметят это или попросят разъяснений. Если бы ИИ для лодочных гонок был человеком, он бы понял, что лазейка, которую он нашел в правилах игры, вероятно, не считается "победой". Если бы ИИ, создающий скрепки, был человеческим бюрократом, он бы понял, что уничтожение человечества ради производства скрепок - это, вероятно, не то, что было задумано. Но поскольку компьютеры - не люди, мы не можем полагаться на то, что они заметят и отметят возможные несоответствия. В 2010-х годах на руководство YouTube и Facebook посыпались предупреждения от их сотрудников-людей, а также от сторонних наблюдателей о вреде, наносимом алгоритмами, но сами алгоритмы так и не подняли тревогу.
По мере того как мы будем давать алгоритмам все большую власть над здравоохранением, образованием, правоохранительными органами и многими другими сферами, проблема выравнивания будет становиться все более актуальной. Если мы не найдем способов ее решения, последствия будут гораздо хуже, чем если бы алгоритмы набирали очки, катаясь на лодках по кругу.
КОРСИКАНСКАЯ СВЯЗЬ