Читаем Совместимость. Как контролировать искусственный интеллект полностью

Совместимость. Как контролировать искусственный интеллект

В сфере ИИ есть и аналог атаки по сторонним каналам. Например, теорема начинается с фразы: «Предположим, машина имеет компоненты А, В и С, соединенные друг с другом таким-то образом…» Это типично для всех теорем о корректности в программировании: они начинаются с описания программы, корректность которой доказывается. В сфере ИИ мы обычно проводим различие между агентом (программой, принимающей решения) и средой (в которой действует агент). Поскольку мы разрабатываем агента, представляется разумным предположить, что он имеет ту структуру, которую мы ему придаем. Для дополнительной безопасности мы можем доказать, что процесс обучения в состоянии изменить эту программу лишь определенными описанными методами, не способными привести к проблемам. Достаточно ли этого? Нет. Как и в случае атаки по сторонним каналам, допущение, что программа действует внутри цифровой системы, некорректно. Даже если алгоритм обучения в силу своей структуры не способен переписать собственный код цифровыми средствами, он тем не менее может научиться тому, как убедить людей сделать ему «операцию на мозге», — нарушить разграничение между агентом и средой и изменить код физическими средствами[252].

В отличие от логики строительного конструирования с ее жесткими балками, мы имеем очень мало опыта работы с допущениями, которые впоследствии лягут в основу теорем о доказуемо полезном ИИ. Скажем, в этой главе мы будем обычно иметь в виду рационального человека. Это несколько отличается от допущения о жесткой балке, поскольку в реальности совершенно рациональных людей не существует. (Вероятно, ситуация намного хуже, так как люди даже не приближаются к рациональности.) Теоремы, которые мы можем доказать, обещают дать нам определенное понимание, которое выдержит даже включение некоторой степени случайности человеческого поведения, но до сих далеко не ясно, что происходит, если учитывать сложность реальных людей.

Таким образом, мы должны быть очень внимательными при анализе своих допущений. Успешно доказав безопасность системы, мы должны убедиться, что успех не стал следствием нереалистично сильных предположений или слишком расплывчатого определения безопасности. Если доказательство безопасности оказывается несостоятельным, нужно избегать искушения усилить предположения, чтобы доказательство заработало, — например, добавив допущение, что программный код остается неизменным. Наоборот, мы должны «закрутить все гайки» в дизайне ИИ-системы, к примеру гарантировав, что у нее нет стимула для изменения критических элементов своего кода.

Некоторые допущения я отношу к категории НТММРПД (аббревиатура от «ну тогда мы можем расходиться по домам»), а именно — если эти допущения ложны, то игра закончена и сделать ничего нельзя. Например, разумно предположить, что Вселенная функционирует согласно постоянным и до некоторой степени выявляемым законам. Если это не так, у нас нет гарантии, что процессы обучения — даже самые изощренные — вообще сработают. Другое базовое допущение состоит в том, что людям не все равно, что происходит; в ином случае доказуемо полезный ИИ не имеет смысла, ведь само понятие пользы бессмысленно. Здесь «не все равно» означает наличие более или менее последовательных и устойчивых предпочтений в отношении будущего. В следующей главе я рассматриваю следствия пластичности человеческих предпочтений, представляющей серьезный философский вызов для самой идеи доказуемо полезного ИИ.

Пока что я сосредоточиваюсь на простейшем случае — мире, где есть один человек и один робот. Этот случай позволяет представить основные идеи, но полезен и сам по себе: представьте, что один человек представляет все человечество, а один робот — все машины. При рассмотрении множества людей и множества машин возникают дополнительные сложности.

Изучение предпочтений по поведению

Экономисты судят о предпочтениях людей, предлагая им сделать выбор[253]. Этот прием широко используется в разработке продуктов, маркетинге и интерактивных системах электронной торговли. Например, предложив испытуемым на выбор автомобили, отличающиеся цветом, расположением мест, величиной багажника, емкостью батареи, наличием держателей для чашек и т. д., конструктор автомашин узнает, насколько важны для людей различные характеристики машины и сколько они готовы за них заплатить. Другое важное применение этот метод находит в медицине: онколог, рассматривающий возможность ампутации конечности, может захотеть знать, что важнее для пациента — мобильность или ожидаемая продолжительность жизни. Разумеется, пиццерии хотят знать, насколько больше человек готовы заплатить за пиццу с колбасой по сравнению с простой пиццей.

Читаем Совместимость. Как контролировать искусственный интеллект полностью

Совместимость. Как контролировать искусственный интеллект

Изучение предпочтений по поведению

Похожие книги

Все жанры