К счастью, инструкция, данная Гарриет, скорее всего, означает нечто большее, чем просто сообщение, что она предпочитает иметь кофе при прочих равных. Дополнительный смысл проистекает не только из сказанных ею слов, но и из самого факта, что они были сказаны, из конкретной ситуации, в которой эти слова были произнесены, и того обстоятельства, что больше она ничего не сказала. Особое направление лингвистики,
Этот общий подход к анализу часто называют
Это лишь немногие соображения, сопутствующие интерпретации запросов и команд. Тема имеет бесконечные вариации из-за комплексности предпочтений Гарриет, огромного спектра обстоятельств, в которых Гарриет и Робби могут оказаться, и разных состояний знания и представлений Гарриет и Робби в данных обстоятельствах. Готовые сценарии позволили бы Робби справиться с немногочисленными стандартными ситуациями, но гибкое и безотказное поведение может возникнуть только вследствие взаимодействия Гарриет и Робби, то есть фактически из результатов игр в помощника, в которых они участвуют.
Токовая стимуляция
В главе 2 я описывал систему вознаграждения в нашем головном мозге, действующую на основе дофамина, и ее роль в управлении поведением. Функция дофамина была открыта в конце 1950-х гг., но уже к 1954 г. было известно, что непосредственная электрическая стимуляция мозга крыс может вызывать такую же реакцию, что и вознаграждение[272]
. На следующем этапе исследований крысе дали доступ к рычагу, подсоединенному к батарейке и проводу, вызывавшему электрическую стимуляцию мозга зверька. Результаты оказались печальными: крыса снова и снова нажимала на рычаг, не прерываясь на еду или питье, пока не погибла[273]. Люди в подобном эксперименте ведут себя не лучше, стимулируя себя тысячи раз и забывая о еде и личной гигиене[274]. (К счастью, опыты на людях обычно прекращаются по прошествии одного дня.) Склонность животных отказываться от нормального поведения ради непосредственной стимуляции собственной системы вознаграждения называетсяМожет ли что-нибудь подобное случиться с машинами, запустившими алгоритмы обучения с подкреплением, например AlphaGo? Первая мысль — это невозможно, ведь единственная возможность для AlphaGo получить свое вознаграждение плюс один балл за победу — это реально выиграть в смоделированной партии в го. К сожалению, это верно лишь в силу навязанного и искусственного разграничения между AlphaGo и ее внешней средой
Борис Александрович Тураев , Борис Георгиевич Деревенский , Елена Качур , Мария Павловна Згурская , Энтони Холмс
Культурология / Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / История / Детская познавательная и развивающая литература / Словари, справочники / Образование и наука / Словари и Энциклопедии