Замечательный пример того, как интеграция больших данных с традиционной научной методологией может привести к важному научному открытию, дает открытие бозона Хиггса. Прежде всего вспомним, что бозон Хиггса – это ключевой элемент основополагающих законов физики. Он пронизывает всю Вселенную и порождает массу всех элементарных частиц материи, от электронов до кварков. Его существование было блестяще предсказано более шестидесяти лет назад группой из шести физиков-теоретиков. Это предсказание не возникло на пустом месте, а было итогом развития традиционной науки с анализом тысяч экспериментов, поставленных в течение многих лет, и итерационного применения к ним математических теорий и концепций, разработанных для наиболее экономного объяснения наблюдаемых явлений, и постановки следующих экспериментов для проверки теоретических предсказаний.
Развитие технологий до уровня, на котором появилась возможность предпринять серьезные поиски этого трудноуловимого, но жизненно важного элемента нашей объединенной теории фундаментальных сил природы, заняло более пятидесяти лет. Центральным этапом этих поисков было строительство гигантского ускорителя элементарных частиц, в котором два кольцевых протонных пучка движутся в противоположных направлениях со скоростью, близкой к скорости света, и сталкиваются друг с другом в зонах взаимодействия, находящихся под тщательным контролем экспериментаторов. Сооружение этой установки под названием Большого адронного коллайдера (Large Hadron Collider, LHC), построенной в Европейском центре ядерных исследований в швейцарском городе Женеве, стоило более 6 млрд долларов. Даже размеры этого титанического научного прибора поражают воображение: длина его кольца составляет около 27 км, а каждый из двух основных детекторов, которые, собственно, и производят наблюдения и измерения столкновений частиц, имеет около 50 м в длину, 25 м в высоту и 25 м в ширину.
Весь этот проект в целом представляет собой беспрецедентное техническое достижение, а полученная в его результате информация далеко опережает по объемам любые большие данные – ничто другое даже приблизительно с ней не сравнится. Каждую секунду происходит около 600 миллионов столкновений, за которыми следят около 150 миллионов индивидуальных датчиков в каждом из детекторов. Это дает около 150 миллионов петабайт данных в год, или около 150 эксабайт в сутки (как мы помним, байт – это базовая единица информации). Попробуем осознать, что́ означают эти цифры. Созданный в редакторе Word документ, содержащий весь текст этой книги и все ее иллюстрации, занимает менее 20 мегабайт (20 МБ – это 20 млн байт). В моем компьютере MacBook Air можно сохранить до 8 гигабайт данных (8 ГБ – это 8 млрд байт). Все фильмы, хранящиеся в системе Netflix, занимают менее 4 петабайт, что равно 4 млн ГБ, то есть приблизительно в полмиллиона раз больше, чем емкость моего компьютера. Дальше – больше: суммарный объем данных, производимых за каждые сутки всеми компьютерами и другими информационными устройствами в мире, вместе взятыми, составляет около 2,5 эксабайта, а один эксабайт равен 1018
байт, то есть миллиарду гигабайт.Эти поразительные цифры часто рекламируют в качестве меры революции больших данных. Но на самом деле замечательно другое: они меркнут в сравнении с объемами данных, которые производит LHC. Если регистрировать каждое из 600 млн столкновений, происходящих каждую секунду, их объем составит около 150 эксабайт в сутки, что приблизительно в 60 раз больше суммарного количества данных, производимых всеми вычислительными устройствами в мире, вместе взятыми. Очевидно, это означает, что наивная стратегия, которая позволяет данным «говорить самим за себя» при помощи алгоритмов обучения машин, используемых для поисков корреляций, которые в конце концов должны будут привести к обнаружению механизма Хиггса, работать не будет. Даже если такая машина будет выдавать в миллион раз меньше данных, успешность такой стратегии остается крайне маловероятной. Как же физикам удалось найти пресловутую иголку в этом гигантском стогу сена?
Дело в том, что у нас есть глубоко проработанные, вполне понятные и тщательно проверенные концептуальная система и математическая теория, которые указывают нам, где именно следует искать. Они говорят нам, что почти все осколки, образующиеся почти во всех столкновениях, не представляют интереса или не имеют значения с точки зрения поисков бозона Хиггса. Собственно, они говорят нам, что приблизительно из 600 млн столкновений, происходящих каждую секунду, нас интересует всего лишь около сотни, то есть около 0,00001 % всего потока данных. Именно благодаря разработке сложного алгоритма, выделяющего лишь очень малую и очень конкретную часть данных, и был в конце концов открыт бозон Хиггса.