Читаем Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет полностью

Базальные ганглии — сложная версия функции стоимости, которую Джерри Тезауро обучил в TD-Gammon предсказывать значимость позиций на доске. Удивительный успех AlphaGo, достигшей уровня чемпиона мира по го и описанной в главе 1, основан на той же архитектуре, что и TD-Gammon, но с большим размахом. Один слой скрытых элементов в оценочной сети TD-Gammon стал десятком слоев в AlphaGo, сыгравшей сотни миллионов игр. Но основные алгоритмы остались прежними. Это наглядно показывает, как хорошо алгоритмы обучения нейронных сетей масштабируются. Насколько выше будет производительность, если мы продолжим увеличивать размер сети и время обучения?

Игры — куда более простая среда, чем реальный мир. Ступенькой к более сложным и неопределенным условиям является мир видеоигр. Компания DeepMind в 2015 году показала, что обучение с учетом временной разницы способно научить играть в компьютерные игры от Atari, такие как Pong[264], на сверхчеловеческих уровнях, принимая пиксели экрана в качестве входных данных[265]. Следующий шаг — видеоигры в 3D-формате. StarCraft[266] — одна из лучших соревновательных видеоигр всех времен. Компания DeepMind использует ее для разработки автономных сетей глубокого обучения, которые могут хорошо развиваться в этом мире. Компания Microsoft Research купила права на Minecraft, еще одну популярную видеоигру[267], и сделала открытым ее исходный код, чтобы другие могли настраивать 3D-среду и ускорять развитие искусственного интеллекта.

Играть в нарды и выходить на чемпионский уровень — впечатляющее достижение, а играть в видеоигры — важный следующий шаг. Но как насчет решения проблем в реальном мире? Цикл восприятие — действие (рис. 10.2) применим к любой задаче, план решения которой строится на основе сенсорных данных. Результат этих действий можно сравнить с прогнозируемым результатом, а разницу затем использовать для обновления состояния системы, делающей прогнозы. Применяя память о предыдущих условиях, можно оптимизировать использование ресурсов и прогнозирование потенциальных проблем.

Саймон Хайкин из Университета Макмастера в Канаде использовал эту структуру для улучшения производительности нескольких важных инженерных систем[268], в том числе когнитивного радио, которое динамически распределяет каналы связи, когнитивного радара, который динамически смещает частотный диапазон для уменьшения помех, и когнитивной сетки, которая динамически выравнивает нагрузку в зависимости от энергопотребления электрической сети. Управлять рисками также можно в рамках цикла «восприятие — действие»[269]. Улучшения в каждой из этих областей выходят существенные, значительно повышается производительность и сокращаются расходы.

Учим парить

В 2016 году мы с Массимо Вергассола из Калифорнийского университета в Сан-Диего задались вопросом, можно ли использовать обучение с учетом временной разницы, чтобы научиться парить, как птицы, оставаясь на высоте в течение многих часов и не затрачивая много энергии[270]. Восходящий поток теплого воздуха может поднять птицу достаточно высоко, но внутри потока воздух прогрет неравномерно, и можно как подняться вверх, так и упасть. Ориентиры, которые птицы используют для поддержания своей восходящей траектории перед лицом столь мощной стихии, неизвестны. Первым шагом была разработка реалистичной с точки зрения физики модели воздушного потока, неравномерного (турбулентного) из-за конвекции, и модели аэродинамики планера. Затем мы симулировали траекторию полета планера в турбулентном потоке.



Рис. 10.6. Симуляция планера, учащегося парить в восходящем потоке теплого воздуха. Верхний ряд: снимки полей вертикальной скорости[271] (A) и распределения температур (B) в нашем трехмерной цифровой модели конвекции Рэлея — Бенара. Для поля вертикальной скорости светлым и темным цветами обозначены соответственно области большого восходящего и нисходящего потока. Для температурного поля светлый и темный цвета обозначают области высокой и низкой температур. Нижний ряд: (А) типичные траектории необученного и (В) обученного планера, летящего в турбулентном потоке Рэлея — Бенара. Оттенки указывают вертикальную скорость ветра, ощущаемую планером. Светлые и темные точки — начальная и конечная точки траектории. Нетренированный планер принимает случайные решения и спускается, в то время как обученный планер летит по характерным спиральным схемам в областях сильных восходящих течений, как птица парит в восходящих потоках теплого воздуха.


Перейти на страницу:

Похожие книги

Как справиться с компьютерной зависимостью
Как справиться с компьютерной зависимостью

Компьютер так прочно вошел в нашу жизнь, что большая половина человечества не может представить без него своего существования. Мы проводим за ним не только все рабочее, но и свободное время. Однако не каждый человек знает, что круглосуточное пребывание за монитором несет реальную угрозу как физическому (заболевания позвоночника, сердечно-сосудистой системы и т. д.), так и психическому здоровью (формирование психической зависимости от Интернета и компьютерных игр). С помощью данной книги вы сможете выявить у себя и своих близких признаки компьютерной зависимости, понять причины и механизмы ее возникновения и справиться с ней посредством новейших психологических методик и упражнений.

Виктория Сергеевна Тундалева , Елена Вячеславовна Быковская , М О Носатова , Н Р Казарян , Светлана Викторовна Краснова

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Цифровой журнал «Компьютерра» № 24
Цифровой журнал «Компьютерра» № 24

ОглавлениеБольшие новостиMicrosoft BizSpark: поиски инвесторов и менторов Автор: Григорий РудницкийNASA открыло виртуальную лунную базу Автор: Михаил КарповТерралабПромзона: Катушка с лупой Автор: Николай МаслухинPixel Qi: дисплеи, не слепнущие на солнце Автор: Юрий ИльинПромзона: Батарейки Microsoft Автор: Николай МаслухинСофт: Process Explorer — порнобаннер в прицеле Автор: Николай МаслухинSynaptics: тачпады нового поколения Автор: Олег НечайПромзона: Очки-суфлер Автор: Николай МаслухинМобильный интернет для малого бизнеса Автор: Максим БукинВещь дня: беззеркальная камера Lumix G2 Автор: Андрей ПисьменныйHDBaseT 1.0: дешёвая замена HDMI Автор: Олег НечайПромзона: Воздушный холодильник Автор: Николай МаслухинСофт: Настраиваем Ubuntu с помощью Ubuntu Tweak Автор: Крестников ЕвгенийПромзона: Бескрайний бассейн Автор: Николай МаслухинСпособы обмана в мобильных сетях Автор: Максим БукинСвоя играВасилий Щепетнёв: О пользе словаря Автор: Василий ЩепетневКивино гнездо: Человек против обмана Автор: Берд КивиMicrosoft: что пошло не так Автор: Андрей ПисьменныйКафедра Ваннаха: Скольжение к сингулярности Автор: Ваннах МихаилВасилий Щепетнёв: Гамбит Форт-Росс Автор: Василий ЩепетневКафедра Ваннаха: Облачное программирование и Пуэрто-Рико Автор: Ваннах МихаилВасилий Щепетнёв: Следы на целлулоиде Автор: Василий ЩепетневКивино гнездо: Конфликт криптографии и бюрократии Автор: Берд КивиИнтерактивЛюдмила Булавкина, директор YouDo по маркетингу, о любительском контенте Автор: Юрий ИльинМакс Зацепин и Глеб Никитин о музыкальной игре для iPad Автор: Юрий ИльинСергей Матиясевич (3D Bank) о рынке трёхмерных моделей Автор: Юрий ИльинВ. Репин (ИХБФМ СО РАН) о бактерии из вечной мерзлоты Автор: Алла АршиноваДмитрий Завалишин об операционной системе «Фантом» Автор: Андрей ПисьменныйБлогиАнатолий Вассерман: «Марс-500» Автор: Анатолий ВассерманКак большой оператор споткнулся о маленького SaaS-провайдера Автор: Анисимов КонстантинАнатолий Вассерман: Дальневосточные «партизаны» Автор: Анатолий ВассерманГолубятня-ОнлайнГолубятня: Сидр №4 Автор: Сергей ГолубицкийГолубятня: Бедность Автор: Сергей Голубицкий

Журнал «Компьютерра»

Зарубежная компьютерная, околокомпьютерная литература