Читаем Исторические информационные системы: теория и практика полностью

Для анализа, обработки данных и публикации источников, тексты которых размечены с помощью XML, требуется дополнительное программное обеспечение. Многие программные продукты для этих целей являются коммерческими. Однако в Лионском университете (Франция), в лаборатории ICAR, была разработана платформа TXM с открытым кодом[43]. Данная платформа является программным обеспечением, предназначенным для работы в наиболее распространенных операционных системах (Windows, Mac OC X, Linux), а также поддерживает онлайн-публикацию источников при помощи веб-навигаторов с возможностью контроля доступа к ресурсам и их редактированию. Платформа TXM имеет широкие возможности для проведения текстометрического анализа текстов источников.

Рис. 2.6. Пример организации данных по деятельности парламентариев на основе XML-разметки указателей к стенографическим отчетам

Рис. 2.7. DTD-документ показывает структуру размеченных на основе XML указателей к стенографическим отчетам Государственной Думы I–IV созывов начала XX в.

Другие информационные системы интегрируют исследовательский инструментарий и источники и позволяют оперировать возможностями разметки. Так, в Ланкастерском университете (Великобритания) разработана платформа Corpus Query Processor для работы с созданными корпусами текстов[44]. Платформа содержит опубликованные корпусы текстов на различных языках, среди которых как национальные, так и специализированные корпусы, в том числе исторические (в первую очередь это совокупность корпусов периодической печати Великобритании с XVIII в. по настоящее время). Часть корпусов исторических текстов размечена на основе XML. Инструментарий платформы обеспечивает поиск по контексту с выбором необходимых метаданных, а также предоставляет широкие возможности для анализа текстов по заданной структуре разметки.

Развитие информационного пространства исторических источников и использование единых стандартов XML-разметки являются важной основой формирования гуманитарной семантической сети информационных ресурсов. Объединение создаваемых ресурсов – вопрос будущего, однако наработки в этом направлении свидетельствуют об эффективности и ценности такого подхода. Таким инструментом является Fawcett Toolkit [Robertson, 2009] – свободно распространяемая компьютерная программа для агрегирования исторических данных, размеченных на основе XML, и их визуализации в виде карт, таймлайнов и анимаций. Fawcett Toolkit агрегирует XML-теги, использованные редакторами ресурсов по действующему стандарту TEI P5. Таким образом, программа позволяет выявлять разнообразные ресурсы, размеченные общими тегами, в том числе персоналии, географические объекты, исторические события, даты и т. д.

Развитие Semantic Web и использование XML-разметки в исторических исследованиях открывают возможности для более глобальных научных изысканий, связанных с Data Mining [Meroño-Peñuela, Ashkpour, van Erp, Mandemakers, Breure, Scharnhorst, Schlobach, van Harmelen, 2014].

Таким образом, использование языка разметки XML при создании информационных систем позволяет учитывать содержание, структуру и иерархию текста; фиксировать различные прочтения и интерпретации источниковой информации; эффективно работать с многослойными текстовыми источниками; сделать заметной для машины ту информацию, которую историк считывает на интуитивном уровне, между строк. Использование разметки XML обеспечивает широкие возможности для обработки текстов, представления документов и анализа информации; позволяет повысить эффективность информационной отдачи источников, углубить представление об их информационном потенциале, получить скрытую для анализа традиционными методами источниковую информацию.

<p>2.5. Привлечение пользователей к созданию исторических информационных систем и ресурсов</p>

При создании и развитии информационных ресурсов, в том числе историко-ориентированных, выделяется направление, связанное с использованием краудсорсинга – привлечения широкого круга лиц для решения тех или иных задач на добровольной основе. В таких проектах пользователь может не только быть потребителем, получать информацию, но и совершенствовать ресурс. Идея расширения доступа пользователей к редактированию, наполнению и развитию ресурсов называется также web 2.0 [Theimer, 2010].

Идея краудсорсинга связана с тем, что способность толпы (crowd) как сложной системы превосходит возможности отдельного человека, поскольку она может создавать групповой интеллект, основанный на сотрудничестве и конкуренции людей в этой группе [Kapetanios, 2008][45]. Д. Суровецки выделяет четыре требования к группе пользователей, чтобы она могла достичь мудрости толпы (the wisdom of crowds) [Surowiecki, 2004].

1. Разнообразие: толпа включает людей с разным опытом, перспективами; каждый участник должен иметь личную информацию, даже если это просто эксцентричная интерпретация известных фактов.

Перейти на страницу:

Похожие книги

С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT