Читаем Неизведанная территория полностью

Наконец летом 2009 года Юань совместил эти методы со своими программными мускулами, чтобы удалить весь мусор, переполнявший наши большие данные. Мы прополоскали в реке вычислений тексты миллионов книг. Эта операция была настолько масштабной, что даже запустила внутренние системы предупреждения Google. После этой ассенизации легендарных масштабов в нашем распоряжении осталась лишь малая доля первоначальных данных. Тем не менее массив был беспрецедентным с точки зрения размера и исторической глубины – 500 миллиардов слов, написанных в течение пяти столетий на семи различных языках. В нем содержалось более 4% всех когда-либо опубликованных книг.

Не менее важно и то, что этот огромный массив данных был по-настоящему блестящим. Несмотря на то, что общий объем текста в тысячу раз превосходил геном человека, он был – буква за буквой – в десять раз более точен, чем последовательность, о которой сообщал проект «Геном человека» [116].

Теперь, после того как тексты и метаданные каталогов на основе карточек были уточнены, созданные на их основе списки n-грамов стали выглядеть просто отлично. Мы ясно видели широкий спектр лингвистических и культурных изменений, таких как переход от throve к thrived или движение от telegraph («телеграф») к telephone («телефон») и television («телевидение»). Выражаясь научным языком, с данными n-грамов у нас возникла любовь с первого взгляда.

Однако, подобно многим другим летним романам, наши отношения с n-грамами вскоре столкнулись с осенними проблемами. Юань заканчивал интернатуру с начала учебного года, и мы вскоре оказались за пределами Google, а соответственно, все наши данные были спрятаны за брандмауэрами компании.

Нам было необходимо, чтобы Google отправила нам данные. Однако интернет-гигант этого не хотел. По мнению Google, работа с данными n-грамов оставалась довольно деликатным делом. Массив данных был сформирован из полного текста 5 миллионов книг, и юридический расчет Google был прост. Пять миллионов книг соответствуют пяти миллионам авторов – иными словами, пяти миллионам истцов в рамках огромного иска, который мог появиться в случае утечки. Мы проектировали набор данных в виде тени (n-грама), чтобы обойти эту проблему. Мы подсчитывали слова вместо того, чтобы записывать длинные последовательности текста. Однако наша ловкость рук еще не проходила проверки судами[117]. Было вполне понятно, чего опасается Google.

У нас было мало шансов на успех в противостоянии с юридической службой одной из крупнейших мировых корпораций. Однако, имея в кармане два миллиарда n-грамов, мы не были готовы сдаться.

Что можно купить за славу

У нас оставалось все меньше карт для игры. Авива Эйден, получившая свою награду, дала нам шанс открыть двери Googleplex. Мы в полной мере воспользовались добротой чужих людей, когда Питер Норвиг дал нам добро на проект и выразил готовность сотрудничать. Мы даже воспользовались «звонком другу», когда оказалось, что наш давний сосед Бен Байер оказался «Повелителем времени и пространства» в Google Research (возможно, это лучшее название должности во всей корпоративной истории). Однако нам предстояло разыграть еще одну карту.

Наши разговоры о количественном измерении исторических тенденций привлекли внимание Стивена Пинкера, одного из самых знаменитых ныне живущих ученых, перед которым мы всегда преклонялись.

Пинкер – психолог, лингвист и когнитивист, обладающий невероятной глубиной и широтой познаний. Автор многочисленных бестселлеров, он обладает потрясающей способностью препарировать самые сложные проблемы и выявлять их суть. Например, как-то раз Пинкера пригласили на сатирическое телешоу Colbert Report. Ведущий Стивен Колберт спросил его: «Как работает мозг? Ответьте в пяти словах или меньше». Пинкер подумал пару секунд и сказал: «Клетки мозга „выстреливают“ определенные последовательности» [118].

Нам невероятно повезло, что одним из фанатов Пинкера оказался не кто иной, как Дэн Клэнси, возглавлявший летом 2009 года работу над проектом Google Books. Клэнси занимал достаточно высокое положение для того, чтобы обеспечить нам доступ к данным извне. Но Клэнси – это занятой и важный человек, у которого нет времени для мелких проектов типа нашего. Однако к концу лета стало понятно, что если мы хотим устроить встречу с Пинкером и обсудить с ним наши n-грамы, то для этого придется найти время и неуловимому Дэну Клэнси.

Поэтому мы сказали Пинкеру следующее: «Мы создали 2 миллиарда n-грамов; можете ли вы помочь нам выпустить их на волю?» Пинкер посчитал, что у нашей работы есть будущее, и согласился прийти на встречу. После этого Клэнси тоже изъявил желание прийти. У нас было тридцать минут на то, чтобы изложить суть своего дела.

Перейти на страницу:

Все книги серии Наука XXI век

Неизведанная территория
Неизведанная территория

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Жан-Батист Мишель , Эрец Эйден

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Искусство статистики. Как находить ответы в данных
Искусство статистики. Как находить ответы в данных

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.На русском языке публикуется впервые.

Дэвид Шпигельхалтер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
От болезни тела – к исцелению души. Почему мы болеем?
От болезни тела – к исцелению души. Почему мы болеем?

Все болезни имеют глубокий смысл. Они передают ценнейшие послания психики. Психолог Торвальд Детлефсен и врач Рудигер Дальке помогают нам понять, о чем свидетельствуют инфекционные заболевания, головные боли, несчастные случаи, сердечные приступы и желудочные колики, а также рак и СПИД. Если вы осознаете картину собственной болезни, то сможете найти новый прямой путь к самому себе. Болезнь не является неприятной помехой на этом пути, ибо она сама – путь. Чем сознательнее мы к ней относимся, тем лучше она выполняет свои задачи. Наша цель – не борьба с болезнью, а ее использование для исцеления души.

Рудигер Дальке , Торвальд Детлефсен

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Эзотерика / Здоровье и красота / Дом и досуг