Читаем На краю пропасти. Экзистенциальный риск и будущее человечества полностью

Это может произойти одним из двух способов. Системы, основанные на использовании моделей, спрогнозируют последствия отключения и увидят, что в таком случае будут серьезно ограничены все будущие траектории и, как правило, отрезаны многие из лучших вариантов. Соответственно, действиям, ведущим к отключению, будет присвоена очень низкая ценность.

Безмодельные системы тоже могут научиться избегать отключения. Orseau & Armstrong (2016) показывают, как периодическое отключение агента в процессе обучения может привести к появлению систематических ошибок в усвоенном поведении (и предлагают возможное решение проблемы).

Далее я по большей части буду исходить из того, что продвинутый ИИ основан на использовании моделей. Или хотя бы способен применять свои фоновые знания о мире, чтобы с первой попытки успешно справляться со сложными и комплексными задачами, вместо того чтобы всегда сначала делать многие тысячи неудачных попыток, нащупывая путь к успеху. Хотя на момент написания этой книги такие системы еще не созданы, это совместимо с текущей парадигмой и является условием для того, чтобы признать систему общим ИИ. Нет необходимости считать, что такая система справляется с задачами с первого раза лучше, чем человек.

417


Omohundro (2008); Bostrom (2012). В книге Ника Бустрёма Superintelligence (2014) подробно объясняется, как именно такие инструментальные цели могут привести к очень плохим исходам для человечества.

418


Алгоритмы обучения редко учитывают возможность изменения функции вознаграждения в будущем. Неясно, будут ли они оценивать будущие состояния, ориентируясь на текущую или на будущую функцию вознаграждения. Исследователи приступают к изучению этих возможностей (Everitt et al., 2016), и каждая из них сопряжена с трудностями. Применение будущей функции вознаграждения помогает справиться с проблемой противостояния агентов попыткам человека откалибровать их функцию вознаграждения, но усугубляет проблему стимуляции “центра удовольствия” – склонности агентов менять собственную функцию вознаграждения таким образом, чтобы получать вознаграждение стало проще.

419


Несколько из этих инструментальных целей можно считать примерами “сдвигов распределения” – ситуаций, когда агент в процессе работы сталкивается с совершенно неожиданными обстоятельствами, что вынуждает его совершать действия, которые никогда не демонстрировались в процессе обучения и испытания. В этом случае агент в процессе испытания может и не получить возможность стать сильнее людей, которые им управляют, а следовательно, ему не понадобится демонстрировать поведение, сопряженное с обманом и захватом контроля над ресурсами.

420


Например, в книге “Просвещение продолжается” (2018, pp. 299–300; перевод Г. Бородиной и С. Кузнецовой) Стивен Пинкер говорит, что сценарии риска, сопряженного с ИИ, “основаны на двух гипотезах… (2) этот ИИ будет так гениален, что сможет придумать, как преобразовывать химические элементы и перепрошивать мозги, но так придурковат, что погрузит мир в хаос из за элементарной оплошности или недопонимания”.

421


Обратите также внимание, что агент может замечать вероятное несоответствие между своими и нашими ценностями (что вызовет враждебность к человечеству), даже если наши ценности ему не совсем понятны. В этом случае, даже если он был запрограммирован таким образом, чтобы заменять свои ценности на наши, вполне возможно возникновение несоответствия, пусть и менее опасного.

Есть несколько перспективных направлений исследований проблемы контроля, связанных с предоставлением агентам возможности обновлять свои функции вознаграждения таким образом, чтобы они лучше соответствовали нашим. Одно из них – широкий набор идей о “возможности внесения поправок”, то есть о создании агентов, которые не противятся изменению их целей. Другое – основанный на неопределенности подход к обучению с вознаграждением, в рамках которого агент действует не так, словно уверен в своей трактовке человеческих ценностей, а так, словно пребывает в состоянии моральной неопределенности, а степень его уверенности в различных человеческих ценностях зависит от данных, полученных к настоящему моменту (Russell, 2019). Это подталкивает агента считаться с людьми (которые лучше понимают собственные ценности) и просить совета при необходимости. Поскольку я сам занимаюсь философскими вопросами, связанными с моральной неопределенностью, я нахожу этот подход особенно перспективным (MacAskill & Ord, 2018; MacAskill, Bykvist & Ord, готовится к публикации). Чтобы все сделать правильно, потребуется и дальше изучать этот раздел философии.

422


Скорее всего, люди и правда некоторое время будут эффективнее справляться с выполнением стандартных физических задач при меньших издержках, и потому создание роботов будет стоять на втором месте.

423


Даже если очистить 99 % дисков, все равно сохранятся десятки копий, которые готовы будут размножиться на новых производимых компьютерах.

424


Перейти на страницу:

Похожие книги

Агнец Божий
Агнец Божий

Личность Иисуса Христа на протяжении многих веков привлекала к себе внимание не только обычных людей, к ней обращались писатели, художники, поэты, философы, историки едва ли не всех стран и народов. Поэтому вполне понятно, что и литовский религиозный философ Антанас Мацейна (1908-1987) не мог обойти вниманием Того, Который, по словам самого философа, стоял в центре всей его жизни.Предлагаемая книга Мацейны «Агнец Божий» (1966) посвящена христологии Восточной Церкви. И как представляется, уже само это обращение католического философа именно к христологии Восточной Церкви, должно вызвать интерес у пытливого читателя.«Агнец Божий» – третья книга теологической трилогии А. Мацейны. Впервые она была опубликована в 1966 году в Америке (Putnam). Первая книга трилогии – «Гимн солнца» (1954) посвящена жизни св. Франциска, вторая – «Великая Помощница» (1958) – жизни Богородицы – Пречистой Деве Марии.

Антанас Мацейна

Философия / Образование и наука
Афоризмы житейской мудрости
Афоризмы житейской мудрости

Немецкий философ Артур Шопенгауэр – мизантроп, один из самых известных мыслителей иррационализма; денди, увлекался мистикой, идеями Востока, философией своего соотечественника и предшественника Иммануила Канта; восхищался древними стоиками и критиковал всех своих современников; называл существующий мир «наихудшим из возможных миров», за что получил прозвище «философа пессимизма».«Понятие житейской мудрости означает здесь искусство провести свою жизнь возможно приятнее и счастливее: это будет, следовательно, наставление в счастливом существовании. Возникает вопрос, соответствует ли человеческая жизнь понятию о таком существовании; моя философия, как известно, отвечает на этот вопрос отрицательно, следовательно, приводимые здесь рассуждения основаны до известной степени на компромиссе. Я могу припомнить только одно сочинение, написанное с подобной же целью, как предлагаемые афоризмы, а именно поучительную книгу Кардано «О пользе, какую можно извлечь из несчастий». Впрочем, мудрецы всех времен постоянно говорили одно и то же, а глупцы, всегда составлявшие большинство, постоянно одно и то же делали – как раз противоположное; так будет продолжаться и впредь…»(А. Шопенгауэр)

Артур Шопенгауэр

Философия