Читаем Неизведанная территория полностью

Система карточек представляет собой сердце библиотеки. Для каждой книги в библиотеке заводилась карточка, содержащая важнейшие данные: ее название, имя автора, тему, год публикации, а также крайне важный справочный номер, показывавший, где находится книга. Посетители библиотеки могли проводить за работой с каталогами целые дни, а содержащаяся в каталоге информация, в свою очередь, направляла их в самые дальние уголки здания.

Без каталога библиотека превращается в обычную огромную комнату, в которой царит неразбериха, – в ней невозможно найти ровным счетом ничего.

На протяжении многих столетий одна из самых важных мировых библиотек, Archivio Segreto Vaticano («Секретный архив Ватикана»), выглядела именно так[113]. Ей явно недоставало серьезного каталога карточек для книжного собрания, занимавшего свыше 52 миль пространства книжных полок. Что же там было? Даже люди с неограниченным доступом могли ответить на этот вопрос странной смесью фактов, слухов и легенд. Для того чтобы найти книгу, нужно было знать кого-то, кто знал еще кого-то, кто (возможно) знал, где находится книга. В архиве хранятся бесценные манускрипты, начиная с VIII века (например, материалы суда над Галилеем по обвинению в ереси), однако поиск этих сокровищ превращался в приключение, достойное Индианы Джонса. Что ж, это тоже можно считать способом хранения секретов.

Для нас, как и для любых других пользователей библиотек, самого по себе доступа к книгам было далеко не достаточно. Если мы хотели сравнить тексты из различных мест и времен, то нам были просто необходимы точные метаданные каталогов из карточек, где было написано, как найти каждую книгу, чтобы знать, как классифицировать ее в контексте автоматизированного анализа.

Поначалу мы посчитали это не особенно большой проблемой – Google собрала свой список покупок из 130 миллионов книг, используя информацию каталогов из сотен источников. (В наши дни каталоги на основе карточек, имеющиеся в крупнейших библиотеках, уже были компьютеризированы – одно из первых преимуществ, – а физические карточки часто оказываются в удаленных уголках складов.) Оказалось, однако, что каталоги на основе карточек, даже лучшие, полны ошибок.

И исправление этих ошибок отнимает массу времени. Карточек слишком много, и даже самые большие энтузиасты библиотечного дела не всегда замечают ошибку. Иногда ошибка не позволяет пользователю найти нужную карточку (по принципу «ничего не вижу, ничего не слышу, ничего не говорю») или же кроется в неправильном указании места публикации книги. До тех пор пока справочный номер остается точным, пользователь все равно находит книгу. Неверные метаданные на карточке не особенно беспокоят читателя, поскольку на титульной странице книги его ждет точная информация[114].

Со временем легионы неисправленных ошибок перекочевали из физических каталогов на основе карточек в каталоги цифровых карточек, затем в созданную Google «мать всех каталогов», а затем и в наши информационные массивы. В отличие от людей, желающих прочитать одну книгу, для нас ошибки представляли особую опасность. Ведь мы просто не могли позволить себе вручную просмотреть каждую из миллионов книг. Однако ошибок в карточках было слишком много. При использовании наполненного ошибками каталога метаданных для создания таблиц n-грамов результаты были порой настолько искажены, что от них попросту не было никакой пользы. Так, по нашим изначальным расчетам выходило, что одна наша подруга, работавшая в соседнем офисе, испытала взрывообразный рост популярности в XVI веке. Когда мы рассказали ей об этом, она сказала, что не настолько стара. Либо она нам лгала, либо перед нами возникла довольно серьезная проблема.

Что было делать?

Поскольку мы не могли проверить данные каждой книги вручную, то решили написать компьютерные алгоритмы для поиска подозрительных карточек – точнее, всего того, что давало основания полагать, будто на карточке размещена ошибочная информация. Возьмем, к примеру, журналы. Обычно библиотеки присваивают каждому выпуску серийного издания – будь то газета, научный журнал или любое другое периодическое издание – дату публикации первого номера. Это значит, что, по данным нашего каталога карточек, каждый номер журнала Time был опубликован в 1923 году. Понятно, что с точки зрения наших целей это была огромная проблема.

Для ее решения мы написали алгоритм с названием Serial Killer («серийный убийца») для поиска всего, что могло бы выглядеть как серийное издание. Другой алгоритм, Speed Dater («экспресс-датировщик»), пытался определить, когда была опубликована книга, основываясь на содержавшемся в ней тексте[115]. При совместном применении оба эти алгоритма помогли нам выявить подозрительные карточки и соответствующие им книги. Затем мы исключали эти книги из нашего анализа.

Мистер чистота

Перейти на страницу:

Все книги серии Наука XXI век

Неизведанная территория
Неизведанная территория

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Жан-Батист Мишель , Эрец Эйден

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Искусство статистики. Как находить ответы в данных
Искусство статистики. Как находить ответы в данных

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.На русском языке публикуется впервые.

Дэвид Шпигельхалтер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
От болезни тела – к исцелению души. Почему мы болеем?
От болезни тела – к исцелению души. Почему мы болеем?

Все болезни имеют глубокий смысл. Они передают ценнейшие послания психики. Психолог Торвальд Детлефсен и врач Рудигер Дальке помогают нам понять, о чем свидетельствуют инфекционные заболевания, головные боли, несчастные случаи, сердечные приступы и желудочные колики, а также рак и СПИД. Если вы осознаете картину собственной болезни, то сможете найти новый прямой путь к самому себе. Болезнь не является неприятной помехой на этом пути, ибо она сама – путь. Чем сознательнее мы к ней относимся, тем лучше она выполняет свои задачи. Наша цель – не борьба с болезнью, а ее использование для исцеления души.

Рудигер Дальке , Торвальд Детлефсен

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Эзотерика / Здоровье и красота / Дом и досуг