Для анализа, обработки данных и публикации источников, тексты которых размечены с помощью XML, требуется дополнительное программное обеспечение. Многие программные продукты для этих целей являются коммерческими. Однако в Лионском университете (Франция), в лаборатории ICAR, была разработана платформа TXM с открытым кодом[43]. Данная платформа является программным обеспечением, предназначенным для работы в наиболее распространенных операционных системах (Windows, Mac OC X, Linux), а также поддерживает онлайн-публикацию источников при помощи веб-навигаторов с возможностью контроля доступа к ресурсам и их редактированию. Платформа TXM имеет широкие возможности для проведения текстометрического анализа текстов источников.
Рис. 2.6. Пример организации данных по деятельности парламентариев на основе XML-разметки указателей к стенографическим отчетам
Рис. 2.7. DTD-документ показывает структуру размеченных на основе XML указателей к стенографическим отчетам Государственной Думы I–IV созывов начала XX в.
Другие информационные системы интегрируют исследовательский инструментарий и источники и позволяют оперировать возможностями разметки. Так, в Ланкастерском университете (Великобритания) разработана платформа Corpus Query Processor для работы с созданными корпусами текстов[44]. Платформа содержит опубликованные корпусы текстов на различных языках, среди которых как национальные, так и специализированные корпусы, в том числе исторические (в первую очередь это совокупность корпусов периодической печати Великобритании с XVIII в. по настоящее время). Часть корпусов исторических текстов размечена на основе XML. Инструментарий платформы обеспечивает поиск по контексту с выбором необходимых метаданных, а также предоставляет широкие возможности для анализа текстов по заданной структуре разметки.
Развитие информационного пространства исторических источников и использование единых стандартов XML-разметки являются важной основой формирования гуманитарной семантической сети информационных ресурсов. Объединение создаваемых ресурсов – вопрос будущего, однако наработки в этом направлении свидетельствуют об эффективности и ценности такого подхода. Таким инструментом является Fawcett Toolkit [Robertson, 2009] – свободно распространяемая компьютерная программа для агрегирования исторических данных, размеченных на основе XML, и их визуализации в виде карт, таймлайнов и анимаций. Fawcett Toolkit агрегирует XML-теги, использованные редакторами ресурсов по действующему стандарту TEI P5. Таким образом, программа позволяет выявлять разнообразные ресурсы, размеченные общими тегами, в том числе персоналии, географические объекты, исторические события, даты и т. д.
Развитие Semantic Web и использование XML-разметки в исторических исследованиях открывают возможности для более глобальных научных изысканий, связанных с Data Mining [Meroño-Peñuela, Ashkpour, van Erp, Mandemakers, Breure, Scharnhorst, Schlobach, van Harmelen, 2014].
Таким образом, использование языка разметки XML при создании информационных систем позволяет учитывать содержание, структуру и иерархию текста; фиксировать различные прочтения и интерпретации источниковой информации; эффективно работать с многослойными текстовыми источниками; сделать заметной для машины ту информацию, которую историк считывает на интуитивном уровне, между строк. Использование разметки XML обеспечивает широкие возможности для обработки текстов, представления документов и анализа информации; позволяет повысить эффективность информационной отдачи источников, углубить представление об их информационном потенциале, получить скрытую для анализа традиционными методами источниковую информацию.
2.5. Привлечение пользователей к созданию исторических информационных систем и ресурсов
При создании и развитии информационных ресурсов, в том числе историко-ориентированных, выделяется направление, связанное с использованием
Идея краудсорсинга связана с тем, что способность
1. Разнообразие: толпа включает людей с разным опытом, перспективами; каждый участник должен иметь личную информацию, даже если это просто эксцентричная интерпретация известных фактов.