Наконец летом 2009 года Юань совместил эти методы со своими программными мускулами, чтобы удалить весь мусор, переполнявший наши большие данные. Мы прополоскали в реке вычислений тексты миллионов книг. Эта операция была настолько масштабной, что даже запустила внутренние системы предупреждения Google
. После этой ассенизации легендарных масштабов в нашем распоряжении осталась лишь малая доля первоначальных данных. Тем не менее массив был беспрецедентным с точки зрения размера и исторической глубины – 500 миллиардов слов, написанных в течение пяти столетий на семи различных языках. В нем содержалось более 4% всех когда-либо опубликованных книг.Не менее важно и то, что этот огромный массив данных был по-настоящему блестящим. Несмотря на то, что общий объем текста в тысячу раз превосходил геном человека, он был – буква за буквой – в десять раз более точен, чем последовательность, о которой сообщал проект «Геном человека» [116]
.Теперь, после того как тексты и метаданные каталогов на основе карточек были уточнены, созданные на их основе списки n
-грамов стали выглядеть просто отлично. Мы ясно видели широкий спектр лингвистических и культурных изменений, таких как переход от throve к thrived или движение от telegraph («телеграф») к telephone («телефон») и television («телевидение»). Выражаясь научным языком, с данными n-грамов у нас возникла любовь с первого взгляда.Однако, подобно многим другим летним романам, наши отношения с n
-грамами вскоре столкнулись с осенними проблемами. Юань заканчивал интернатуру с начала учебного года, и мы вскоре оказались за пределами Google, а соответственно, все наши данные были спрятаны за брандмауэрами компании.Нам было необходимо, чтобы Google
отправила нам данные. Однако интернет-гигант этого не хотел. По мнению Google, работа с данными n-грамов оставалась довольно деликатным делом. Массив данных был сформирован из полного текста 5 миллионов книг, и юридический расчет Google был прост. Пять миллионов книг соответствуют пяти миллионам авторов – иными словами, пяти миллионам истцов в рамках огромного иска, который мог появиться в случае утечки. Мы проектировали набор данных в виде тени (n-грама), чтобы обойти эту проблему. Мы подсчитывали слова вместо того, чтобы записывать длинные последовательности текста. Однако наша ловкость рук еще не проходила проверки судами[117]. Было вполне понятно, чего опасается Google.У нас было мало шансов на успех в противостоянии с юридической службой одной из крупнейших мировых корпораций. Однако, имея в кармане два миллиарда n
-грамов, мы не были готовы сдаться.Что можно купить за славу
У нас оставалось все меньше карт для игры. Авива Эйден, получившая свою награду, дала нам шанс открыть двери Googleplex
. Мы в полной мере воспользовались добротой чужих людей, когда Питер Норвиг дал нам добро на проект и выразил готовность сотрудничать. Мы даже воспользовались «звонком другу», когда оказалось, что наш давний сосед Бен Байер оказался «Повелителем времени и пространства» в Google Research (возможно, это лучшее название должности во всей корпоративной истории). Однако нам предстояло разыграть еще одну карту.Наши разговоры о количественном измерении исторических тенденций привлекли внимание Стивена Пинкера, одного из самых знаменитых ныне живущих ученых, перед которым мы всегда преклонялись.
Пинкер – психолог, лингвист и когнитивист, обладающий невероятной глубиной и широтой познаний. Автор многочисленных бестселлеров, он обладает потрясающей способностью препарировать самые сложные проблемы и выявлять их суть. Например, как-то раз Пинкера пригласили на сатирическое телешоу Colbert Report
. Ведущий Стивен Колберт спросил его: «Как работает мозг? Ответьте в пяти словах или меньше». Пинкер подумал пару секунд и сказал: «Клетки мозга „выстреливают“ определенные последовательности» [118].Нам невероятно повезло, что одним из фанатов Пинкера оказался не кто иной, как Дэн Клэнси, возглавлявший летом 2009 года работу над проектом Google Books
. Клэнси занимал достаточно высокое положение для того, чтобы обеспечить нам доступ к данным извне. Но Клэнси – это занятой и важный человек, у которого нет времени для мелких проектов типа нашего. Однако к концу лета стало понятно, что если мы хотим устроить встречу с Пинкером и обсудить с ним наши n-грамы, то для этого придется найти время и неуловимому Дэну Клэнси.Поэтому мы сказали Пинкеру следующее: «Мы создали 2 миллиарда n
-грамов; можете ли вы помочь нам выпустить их на волю?» Пинкер посчитал, что у нашей работы есть будущее, и согласился прийти на встречу. После этого Клэнси тоже изъявил желание прийти. У нас было тридцать минут на то, чтобы изложить суть своего дела.