Читаем Исторические информационные системы: теория и практика полностью

Обеспечение доступа к историческим источникам – важная задача развития информационной инфраструктуры гуманитарных наук. С одной стороны, размещение источников в сети – залог успешного выполнения этой задачи, а с другой – формирование единой информационной среды зависит от качества создаваемых ресурсов и используемых методов, среди которых технологии XML-разметки имеют существенное значение, расширяя функциональные возможности систем.

XML – это язык глубокой разметки текстов, предназначенный для решения широкого круга задач: программной обработки документов; описания, структурирования, хранения и передачи данных; их отображения для просмотра пользователями. Разметка представляет собой набор тегов, позволяющих выделить элементы текста и его внешние особенности для компьютерной идентификации и сортировки информации. В частности, XML-разметка позволяет придавать унифицированные значения сущностям в тексте.

XML используется для того, чтобы размечать тексты согласно исследовательским или пользовательским задачам, в которых уровни разметки, смысловая нагрузка и дробность текстовых единиц могут быть различными. Все размеченные единицы текста семантически могут быть объединены в единую сеть. В этом заключается одно из ключевых удобств и преимуществ XML. Исследователи отмечают обширные возможности XML в повышении информационной отдачи исторических источников [Nellhaus, 2001; Варфоломеев, Иванов, 2006; Варфоломеев, Иванов, 2013].

Использование языка разметки XML в современных историко-ориентированных информационных системах сводится к решению следующих основных задач:

• обеспечение поиска информации, повышение эффективности навигации по данным;

• создание единой коллекции документов или взаимосвязанных коллекций на основе стандартизированных структур и описания;

• решение определенных научно-исследовательских задач при изучении источника;

• создание единого пространства исторических источников, развитие гуманитарной составляющей Semantic Web.

Применение XML-разметки возможно по отношению к метаописанию объектов, что широко используется в современных системах репрезентации исторических источников разных типов.

XML-разметка предоставляет широкие возможности для работы с машиночитаемыми текстовыми источниками. Уровни разметки зависят от назначения и цели ее использования и могут быть следующими:

1) разметка метаданных источников;

2) разметка структуры текстовых источников для создания сложных электронных публикаций;

3) разметка отдельных наборов ключевых слов и иных смысловых и формальных структурных элементов в тексте – маркировка географических объектов, персоналий, дат, событий и т. д.;

4) глубокая разметка и выделение смысловых единиц для решения определенных научно-исследовательских задач и расширения возможностей использования источников.

Развитие информационных технологий позволяет использовать при реализации проектов все уровни разметки одновременно.

В историко-ориентированных информационных системах XML-раз метка используется для обозначения метаданных, к которым в том числе относятся: сведения, позволяющие идентифицировать источник или коллекцию (данные об авторе, происхождении, историческом периоде, типе источника и т. д.); структурные метаданные, отображающие взаимосвязи и отношения элементов информационной системы; метаданные административного характера, отображающие сведения об основных процессах (например, об архивировании и хранении данных в системе и т. д.). XML позволяет оперировать размеченными данными, структурировать и извлекать необходимую информацию посредством запросов. При этом текстовые источники, представленные в системе, могут не являться машиночитаемыми и быть опубликованными в форматах изображений, т. е. в таких случаях обработке на основе XML подвергаются только метаданные. Разметка метаданных позволяет структурировать информацию для ее эффективной обработки, поиска, хранения и передачи.

Наборы метаданных источников в историко-ориентированных информационных системах могут быть краткими или расширенными. Детализированная разметка метаданных предоставляет, соответственно, более широкие возможности для последующего поиска необходимых пользователю ресурсов. Использование XML-разметки при структурировании метаданных не всегда означает ее применение в самих текстах опубликованных источников. Так, в проекте The Early Americas Digital Archive[24], посвященном публикации документов по ранней американской истории (1492–1820-е годы), в качестве метаданных источников размечены авторство, предметно-тематическая рубрика, принадлежность к временному периоду, географическая принадлежность, жанр, тип текстового источника и форма. При этом тексты источников также опубликованы в машиночитаемом формате на сайте проекта (и реализован контекстный поиск), но сами тексты не размечены дополнительно с помощью XML.

Широкие возможности для использования имеют информационные системы с XML-разметкой текстов публикуемых источников.

Перейти на страницу:

Похожие книги