Читаем Аналитика полностью

Статистические характеристики канонизированного текста (такие, как частотно-ранговое распределение длин терминов, традиционно используемое при статистическом анализе текстов) приобретают вид, отличный от вида аналогичных характеристик обычного текста. За счет того, что в канонизированном тексте отсутствуют термины, используемые в обычном (стилистически корректном) тексте для построения анафорических конструкций (отсылок к предыдущим фрагментам текста), в подвергаемую статистическому анализу выборку попадают и те употребления терминов, которые ранее не могли быть учтены из-за того, что подстановочные конструкции (например, анафорические местоимения) традиционно включаются в перечень слов, исключавшихся из текста при проведении статистического анализа. В результате чего могут быть выявлены термины, действительно образующие структуру релевантности текста. В канонизированном представлении текста продолжают выполняться закономерности, выраженные в принципе лингвистической экономии Г.К. Зипфа, что делает полученный текст пригодным для выполнения процедуры автореферирования на основе анализа статистических характеристик. Однако статистические критерии здесь приобретают более объективный характер, благодаря восстановлению системы умолчаний, используемых источником сообщения с целью сокращения синтаксической избыточности.

Использование спектрального представления сообщений позволяет упростить процедуры построения (связывания) и отображения системы логических связей сообщений и событий, упоминаемых в сообщении и его контексте, а также построить развернутые во времени и пространстве системы связей с привлечением сообщений, образующих внешний контекст (исходящих от других источников).

Важной особенностью такого подхода является то, что с его применением могут быть построены модели двух типов:

— модели динамики потока сообщений;

— модели динамики событий.

В этом случае преобразованный массив сообщений может быть представлен в виде логико-лингвистической модели, в графической интерпретации приобретающей вид ветвящегося графа, где ветвления указывают на наличие логических противоречий, разрешение которых возможно с применением мажоритарных и иных методов.

Серьезной проблемой при проведении автоматизированного анализа с применением формально-логических методов является проблема неоднородности представления высказываний. Одни и те же сущности и отношения могут быть выражены в различных терминах, зачастую принадлежащих к разным уровням терминологической иерархии. Например, слова «автомобиль» и «грузовик», не являясь синонимами и имея различный объем понятия, в тексте могут означать одно и то же. Решению этой проблемы может способствовать применение иерархических тезаурусов. То есть, синтезируемые в ходе ИАР модели должны обладать возможностью применения к ним многоуровневого иерархического тезауруса, реализованного в виде совокупности семантических сетей, построенных в терминах различного уровня абстракции. За счет этого модели позволяют осуществлять над ними операцию смены уровня абстракции (общности) описаний и приобретают свойства масштабируемости во времени.

Ситуационные модели, полученные с применением таких представлений позволяют использовать для анализа непротиворечивости сообщений совокупность стандартизированных процедур формального логического анализа. Более того, методы решения полисиллогизмов, предложенные Б.А. Куликом, позволяют выявить факт неполноты системы аксиом и сформировать множество высказываний, которыми может быть дополнена аксиоматическая система, а также сформулировать полное множество логических выводов из системы посылок. Благодаря этому могут быть сформулированы задания на компенсацию неполноты массива исходных данных, а также определить комплекс противоречивых высказываний, сопоставить их с источниками и сформулировать гипотезу о степени достоверности сведений, поставляемых ими.

Несмотря на то, что это не позволяет сделать вывод о достоверности сведений, поставляемых конкретным источником (за исключением случая наличия внутренней противоречивости в его сообщениях), подобные методы позволяют оценить степень непротиворечивости сведений, полученных от группы источников. В результате чего, при наличии источников более достоверной информации может быть сформулирован комплекс мероприятий, направленных на устранение противоречивости.

8.2 Нетекстовые модели как инструмент верификации данных

Сколь бы совершенны ни были средства логического анализа достоверности данных, однако при условии, что стратегии дезинформации разработаны высококвалифицированными специалистами, располагающими столь же совершенными «электронными помощниками», реальной возможности верификации данных они не предоставляют.

Перейти на страницу:

Похожие книги

Биология добра и зла. Как наука объясняет наши поступки
Биология добра и зла. Как наука объясняет наши поступки

Как говорит знаменитый приматолог и нейробиолог Роберт Сапольски, если вы хотите понять поведение человека и природу хорошего или плохого поступка, вам придется разобраться буквально во всем – и в том, что происходило за секунду до него, и в том, что было миллионы лет назад. В книге автор поэтапно – можно сказать, в хронологическом разрезе – и очень подробно рассматривает огромное количество факторов, влияющих на наше поведение. Как работает наш мозг? За что отвечает миндалина, а за что нам стоит благодарить лобную кору? Что «ненавидит» островок? Почему у лондонских таксистов увеличен гиппокамп? Как связаны длины указательного и безымянного пальцев и количество внутриутробного тестостерона? Чем с точки зрения нейробиологии подростки отличаются от детей и взрослых? Бывают ли «чистые» альтруисты? В чем разница между прощением и примирением? Существует ли свобода воли? Как сложные социальные связи влияют на наше поведение и принятие решений? И это лишь малая часть вопросов, рассматриваемых в масштабной работе известного ученого.

Роберт Сапольски

Научная литература / Биология / Образование и наука
Эволюция: Триумф идеи
Эволюция: Триумф идеи

Один из лучших научных журналистов нашего времени со свойственными ему основательностью, доходчивостью и неизменным СЋРјРѕСЂРѕРј дает полный РѕР±Р·ор теории эволюции Чарльза Дарвина в свете сегодняшних представлений. Что стояло за идеями великого человека, мучительно прокладывавшего путь новых знаний в консервативном обществе? Почему по сей день не прекращаются СЃРїРѕСЂС‹ о происхождении жизни и человека на Земле? Как биологи-эволюционисты выдвигают и проверяют СЃРІРѕРё гипотезы и почему категорически не РјРѕРіСѓС' согласиться с доводами креационистов? Р' поисках ответа на эти РІРѕРїСЂРѕСЃС‹ читатель делает множество поразительных открытий о жизни животных, птиц и насекомых, заставляющих задуматься о людских нравах и Р­РўР

Карл Циммер

Научная литература / Биология / Образование и наука
Бог как иллюзия
Бог как иллюзия

Ричард Докинз — выдающийся британский ученый-этолог и популяризатор науки, лауреат многих литературных и научных премий. Каждая новая книга Докинза становится бестселлером и вызывает бурные дискуссии. Его работы сыграли огромную роль в возрождении интереса к научным книгам, адресованным широкой читательской аудитории. Однако Докинз — не только автор теории мемов и страстный сторонник дарвиновской теории эволюции, но и не менее страстный атеист и материалист. В книге «Бог как иллюзия» он проявляет талант блестящего полемиста, обращаясь к острейшим и актуальнейшим проблемам современного мира. После выхода этой работы, сегодня уже переведенной на многие языки, Докинз был признан автором 2006 года по версии Reader's Digest и обрел целую армию восторженных поклонников и непримиримых противников. Споры не затихают. «Эту книгу обязан прочитать каждый», — считает британский журнал The Economist.

Ричард Докинз

Научная литература