Система карточек представляет собой сердце библиотеки. Для каждой книги в библиотеке заводилась карточка, содержащая важнейшие данные: ее название, имя автора, тему, год публикации, а также крайне важный справочный номер, показывавший, где находится книга. Посетители библиотеки могли проводить за работой с каталогами целые дни, а содержащаяся в каталоге информация, в свою очередь, направляла их в самые дальние уголки здания.
Без каталога библиотека превращается в обычную огромную комнату, в которой царит неразбериха, – в ней невозможно найти ровным счетом ничего.
На протяжении многих столетий одна из самых важных мировых библиотек,
Для нас, как и для любых других пользователей библиотек, самого по себе доступа к книгам было далеко не достаточно. Если мы хотели сравнить тексты из различных мест и времен, то нам были просто необходимы точные метаданные каталогов из карточек, где было написано, как найти каждую книгу, чтобы знать, как классифицировать ее в контексте автоматизированного анализа.
Поначалу мы посчитали это не особенно большой проблемой –
И исправление этих ошибок отнимает массу времени. Карточек слишком много, и даже самые большие энтузиасты библиотечного дела не всегда замечают ошибку. Иногда ошибка не позволяет пользователю найти нужную карточку (по принципу «ничего не вижу, ничего не слышу, ничего не говорю») или же кроется в неправильном указании места публикации книги. До тех пор пока справочный номер остается точным, пользователь все равно находит книгу. Неверные метаданные на карточке не особенно беспокоят читателя, поскольку на титульной странице книги его ждет точная информация[114]
.Со временем легионы неисправленных ошибок перекочевали из физических каталогов на основе карточек в каталоги цифровых карточек, затем в созданную
Что было делать?
Поскольку мы не могли проверить данные каждой книги вручную, то решили написать компьютерные алгоритмы для поиска подозрительных карточек – точнее, всего того, что давало основания полагать, будто на карточке размещена ошибочная информация. Возьмем, к примеру, журналы. Обычно библиотеки присваивают каждому выпуску серийного издания – будь то газета, научный журнал или любое другое периодическое издание – дату публикации первого номера. Это значит, что, по данным нашего каталога карточек, каждый номер журнала
Для ее решения мы написали алгоритм с названием
Мистер чистота