В феврале 2012 года я написал восторженную «Голубятню» о технологической революции, которую произвел проект Compreno, над которым ABBYY корпела более 15 лет. Летом прошлого года планировался готовый продукт. Пишу это не для того, чтобы укорить, а, как бы, напомнить: «Ау, ребята! Мы вас очень любим, а оттого -помним и всё еще ждем, не теряя надежды :)». Уж очень хочется еще при жизни погулять на празднике реальной альтернативы Google Translate, выводящей компьютеризированный перевод на следующий качественный уровень.
Сегодня хочу поговорить о другом восхитительном начинании ABBYY, которое я лично не хотел бы видеть заброшенным в еще большей степени, чем Compreno. Здесь, впрочем, ситуация качественно отличная: если Compreno никто, кроме самих разработчиков, уже угрохавших на проект 15 лет, продолжить не сможет, то в случае с проектом «Весь Толстой за один клик» (именно о нем мы сегодня будем говорить в «Голубятне») благодарное человечество, выразив предварительно признательность первопроходцу, с легкостью подхватит выпавшее из рук знамя (если, конечно, оно выпадет :) и двинется в будущее уже своим ходом.
Итак, что же это за однокличенный Толстой. ABBYY открыла специальный портал для координации действий по коллективному созданию эталонной электронной версии 90-томного академического собрания сочинений Льва Толстого. Любой желающий регистрируется на сайте (с именем и фамилией, слава богу — никакой дешевой анонимности!), устанавливает у себя на компьютере специальную версию FineReader 11 Professional Edition, загружает сырец-пакет размером в 5-10 Мб, который содержит около 20 страниц факсимильного текста, OCR-ит его и начитает считывать, исправляя ошибки, которые неизбежно возникают в процессе машинного распознавания знаков.
После окончания работы вы возвращаете вычитанный пакет обратно в систему, где его проверяют аудиторы на предмет пропущенных вами ошибок, опечаток и т.д. Если качество достойное, пакет принимается, а вы получаете баллы, увеличивая, тем самым, собственный рейтинг в проекте. Если ошибок слишком много, аудитор ваш пакет отклонит, и он вернется обратно в базу данных, и, следовательно, любой другой участник проекта сможет его взять на вычитывание. Аудиторы тоже набираются из добровольцев, которым, правда, предварительно потребуется пройти специальный тест на грамотность.
Проект организовала ABBYY совместно с Государственным музеем Льва Толстого. Инициатива похвальная, благородная, полезная и… здесь, наверное, можно было поставить точку. Помянули и благополучно забыли. Мало ли в Сети было организовано таких вот групповых аутсорсингов? И где они сейчас?
Очень скоро после запуска «Всего Толстого за один клик» (18 июня 2013 года) случилось событие, которое перевернуло все мои представления о потенциальных возможностях подобных инициатив. За первые 10 дней после старта 1 600 зарегистрировавшихся участников сумели вычитать 41 800 страниц — практически все 90 томов академического собрания сочинений писателя!
Соответственно к работе подключились аудиторы, которым предстоит не только внимательно проверить первую вычитку, но и корректно отформатировать материалы. Очевидно, что это занятие займет побольше времени, чем первоначальная вычитка, но тоже не затянется дольше, чем на пару месяцев.
Что же мы получаем в итоге? Безупречная цифровая версия уникального памятника мировой культуры будет доступна всем желающим за какие-то совершенно невероятные сроки: несколько месяцев! 90 томов! Для ориентира: выпуск самого академического полного собрания сочинений Льва Толстого осуществлялся 30 лет. С 1928 по 1958 годы.
Что меня потрясло в этой истории больше всего? Феноменальная эффективность группового аутсорсинга! Разумеется, можно было предположить, что, объединив усилия многих сотен и даже тысяч людей, можно добиться реально высокой скорости продвижения любого проекта, связанного с оцифровкой текстов. Но чтобы так вот — за 10 дней вычитали 90 томов ПСС, даже и вообразить не мог.
Самое интересное, в чем хотелось бы сейчас разобраться (и самое важное в практическом отношении на будущее) — это факторы, которые способствовали выведению эффективности группового аутсорсинга на качественный уровень, который не имеет аналогов в Интернете (мне, по крайней мере, они не ведомы, так что если кто-то подскажет, буду признателен). Речь сейчас идет не о темпах проведения вычитки и не о качестве продукта, ожидаемого на выходе, а именно об эффективности самого проекта.