Стало быть, нужна новая уникальная техника. И она создается. Прототип ультрабыстрого сканера, способный оцифровать книгу за минуту, намерены создать в течение двух лет сотрудники Токийского университета. Причем камера, которая делает до 500 фотографий в секунду, что позволяет оцифровывать 170 страниц за 60 секунд, уже имеется. Созданы и инфракрасные датчики, которые работают в трех измерениях и корректируют искажения, вызванные изгибом переворачиваемых страниц. В настоящее время японские инженеры заняты разработкой надежного робота, который мог бы быстро переворачивать страницы, не повреждая их. Пока это приходится делать вручную.
Но и это еще не все…
Не только скопировать, но и расшифровать. С помощью качественной цифровой камеры довольно просто получить оригинал страницы любого фолианта. Однако в большинстве случаев он воспринимается компьютером как своего рода картинка. Чтобы работать с текстом – анализировать, выделять фрагменты, редактировать и т. д., – необходимо перевести «картинки» в текстовый формат. И здесь начинаются главные проблемы.
Старые книги изобилуют декоративными элементами, щедро украшены вязью и стилизованными буквицами. Устаревшие шрифты, которые использовались печатниками пару столетий назад, давно не применяются в современной полиграфии, а некоторые символы вообще исчезли из современных алфавитов. Потому стандартные «распознавалки» с такими текстами не работают.
Кроме того, со временем бумага желтеет, темнеет, а текст выцветает так, что местами становится почти неразличим. Вот почему в течение последних лет в мире реализуются специальные проекты оцифровки старинных книг.
Один из самых масштабных – МЕТА – был задуман и осуществлен странами ЕС. Причем его главная идея такова: надо не раскидывать деньги между библиотеками для покупки сканирующей техники, а финансировать прежде всего разработку системы компьютерных программ для распознавания любых европейских текстов, напечатанных в XVI–XIX веках.
Главным инструментом тут стало программное обеспечение оптического распознавания, разработанное российской компанией ABBYY. На этом, кстати, участие России в данном масштабном проекте завершилось, потому что ориентирован проект был на тексты, напечатанные с помощью популярных в тот период шрифтов Fraktur, Schwabacher, a также другой ломаной «готики».
«Чтобы качественно распознавать любые тексты, не только старые, компьютеру мало уметь узнавать символы алфавита. Нужно обладать знаниями о морфологии языка, структуре слов, – рассказывает генеральный директор ABBYY Россия Григорий Липич. – Это необходимо и для исправления опечаток, встречающихся в текстах, и для уточнения архаичных выражений… А для этого опять-таки нужны исследования по морфологии старинных языков…»
Так у разработчиков из ABBYY появились партнеры – российские лингвисты из новосибирской компании ATAPY Software, которые создали специальные языковые модели для распознавания старых европейских языков. Они проанализировали 10 словарей и более 100 книг, изданных в периоде с 1750 по 1930 год, и загрузили в систему распознавания 159 новых грамматических моделей, не использующихся в современных европейских языках. В итоге на странице текста из 1856 символов средневековой печатной «готики» оказались не распознаны всего четыре. Иными словами, вероятность распознавания достигает 99,8 %!
Понятно, что за качество приходится платить. По оценкам Григория Липича, обработка 25 тыс. страниц стоит около 75 тыс. рублей. По мировым меркам вполне приемлемо. Тем более что программа способна помочь также экспертам, криминалистам, краеведам…
Связь на «сотах»
Истории свойственно повторяться? Впервые в мире слова по телефону, как известно, произнес 10 марта 1876 года американец Александер Белл. Однако сама по себе идея передачи звуков на расстояние была придумана не им, а вице-инспектором Парижского телеграфа Шарлем Бурселем. Случилось это еще в 1854 году.