Наиболее распространенным путем решения задач структуризации информации является привлечение эксперта-аналитика. В этом случае на него ложится вся нагрузка по преобразованию исходного текста: от поиска связных фрагментов до выявления системы логических, пространственных, временных отношений и дальнейших процедур синтеза формальной модели. Хотя в последнее время, благодаря развитию семиотики, лингвистики, теории искусственных языков, теории систем искусственного интеллекта, нейрокибернетики и ряда других научных дисциплин, в эту отрасль стали все чаще вторгаться технологии если не автоматического, то автоматизированного анализа и структурирования информации. Среди такого рода технологий можно выделить системы автоматизированного реферирования текста, предназначенные для извлечения фрагментов текста, наиболее ярко выражающих сущность текста или его основные положения. Как правило49
, эта операция осуществляется за счет применения статистических закономерностей, открытых Дж. Зипфом (George Kingsley Zipf) и получивших названиеВ зависимости от реализации статистические критерии могут применяться к тексту на раннем этапе (до грамматико-логической обработки текста), а могут и на завершающей стадии (после предварительной обработки, согласования словоформ и т. п.). Однако, в настоящее время без поддержки интерактивного режима (диалога с экспертом) качество реферирования достаточно низко и не всегда удовлетворяет потребителя. Вне зависимости от спектра технологий, используемых при анализе словоформ (формальные ли грамматики, нейросетевые ли технологии), результаты семантической обработки пока далеки от тех, которые в состоянии обеспечить эксперт, что отчасти объясняется тем, что любая из созданных на сегодня баз знаний, в известном смысле, наивнее ребенка. Причиной такой «наивности» является то, что механизмы обучения подобных систем и способы организации знаний в них несовершенны, а количество каналов приобретения знаний слишком мало. Существуют прототипы самообучающихся интеллектуальных систем, но до уровня интеллекта разумных существ эти системы пока не могут дорасти.
Однако оставим подробное рассмотрение этих вопросов специалистам в области теории систем искусственного интеллекта. Заметим лишь, что
Методы первичного структурирования информации широко используются при синтезе баз данных и подробно рассматриваются в разнообразных изданиях по информатике, в частности — тех, которые посвящены вопросам проектирования и разработки баз данных различного назначения50
. В наиболее популярном и, в то же время, профессиональном изложении эти проблемы рассматриваются в книге американского автора Дэвида Васкевича51, написанной именно для тех людей, которые руководят деятельностью или формулируют задачи перед специалистами в области разработки программного обеспечения, но не обязаны вникать в технологические подробности процесса разработки. В частности, в книге Васкевича описываются различные способы организации и структурирования данных, виды отношений между ними, приведены наглядные примеры, что позволяет руководителю по ее прочтении квалифицированно руководить коллективом разработчиков и грамотно организовать технологический процесс. Но подчеркнем еще раз: для нас в этой книге содержится информация, связанная именно с проблемой структурирования информации.