Изучая эту аномалию, я познакомился с профессионалами из самых разных областей: с философом Кларком Глимором и его коллегами Ричардом Шайнсом и Питером Спиртесом, специалистом по компьютерным наукам Джозефом Халперном, эпидемиологами Джейми Робинсом и Сандером Гренландом, социологом Крисом Уиншипом, статистиками Доном Рубином и Филипом Давидом. Все мы размышляли об одной и той же проблеме и зажгли искру Революции Причинности, которая распространилась, как по цепочке петард, от одной дисциплины к другой и затронула эпидемиологию, психологию, генетику, экологию, геологию, климатологию и т. д. С каждым годом я вижу, что ученые все больше и больше готовы говорить и писать о причинах и следствиях не с извинениями и опущенными глазами, а уверенно и активно. Появилась новая парадигма, в рамках которой основываются утверждения на предположениях, если эти предположения достаточно прозрачны, чтобы вы и другие люди могли судить, насколько они правдоподобны и насколько ваши утверждения чувствительны к их опровержению. Революция Причинности, возможно, не привела к созданию устройства, которое изменило бы нашу жизнь, однако она вызвала трансформацию взглядов, которая неизбежно оздоровит науку.
Я часто думаю, что упомянутая трансформация — второй дар искусственного интеллекта человечеству, и в этой книге в основном рассуждаю об этом. Но сейчас, когда наша история подходит к завершению, пришло время вернуться назад и спросить: в чем же состоит первый дар, для материализации которого потребовалось неожиданно много времени? Приближаемся ли мы к моменту, когда компьютеры или роботы начнут понимать рассуждения о причинно-следственных связах? Способны ли мы создать искусственные интеллекты, не уступающие трехлетним детям в способности воображать? В этой завершающей главе я не предложу однозначных выводов, но поделюсь соображениями на эту тему.
Каузальные модели и большие данные
За последние годы объемы необработанных данных, которые мы собрали, занимаясь наукой, бизнесом, государственным управлением и даже спортом, вырос в невероятных масштабах. Возможно, эти перемены очевиднее всего тем, кто использует Интернет и социальные сети. Сообщалось, что в 2014 году «Фейсбук» хранил 300 петабайт данных о 2 миллиардах пользователей, или 150 мегабайт данных на каждого пользователя. Игры, в которые играют люди, товары, которые они, вероятно, купят, имена всех их друзей в «Фейсбуке» и, конечно, видео с котиками — все это остается в благословенном океане нулей и единиц.
Распространение огромных баз данных в науке не так очевидно для широкой публики, но не менее важно. Например, для проекта «1 000 геномов» было собрано двести терабайт информации и размещено в так называемом крупнейшем публичном каталоге генетических вариаций. В Архиве космических телескопов имени Барбары Микульски, созданном НАСА, накоплено 2,5 петабайта данных, относящихся к нескольким исследованиям глубокого космоса. Но большие данные повлияли не только на передовую науку, они проникли во все сферы научного знания. Всего одно поколение назад морской биолог мог потратить месяцы, чтобы определить численность любимого вида. Теперь у того же биолога есть моментальный доступ к миллионам единиц информации о рыбе, ее икре, содержимом ее желудка и о чем угодно еще. Вместо того чтобы вести учет, биолог расскажет историю.
Для нас важнее вопрос, что идет дальше. Как извлечь смысл из всех этих чисел, битов и пикселей? Объемы данных могут быть гигантскими, но вопросы мы задаем простые. Этот ли ген вызывает рак легких? В каких солнечных системах вероятнее встретить планеты, похожие на Землю? Какие факторы сокращают популяцию нашей любимой рыбы и что с этим делать?
В определенных кругах существует почти религиозная вера в то, что ответы на все эти вопросы можно найти в самих данных, если достаточно хорошо провести их интеллектуальный анализ. Однако читатели этой книги обнаружат, что такая страстная убежденность не всегда имеет под собой основания. Вопросы, которые я только что задал, носят каузальный характер, и на них никогда нельзя ответить, ориентируясь только на информацию. От нас требуется подготовить модель процесса, генерирующего данные или, по крайней мере, каких-то ее аспектов. Всякий раз, когда вы видите статью или исследование, где данные анализируют без модели, вы можете быть уверены, что в итоге они будут просто обобщены и, возможно, трансформированы, но не интерпретированы.