Читаем Аналитика полностью

— адаптивный поиск, ориентированный на применение специализированных языков управления поисковой машиной, обеспечивающий возможность управления режимом адаптации фразы, перестановок и подстановок отдельных слов и т. д.

Услуга эвристического поиска, основанного на использовании систем искусственного интеллекта, формирующих расширенный запрос на основе применения специализированных отраслевых тезаурусов и семантических сетей, несмотря на все анонсы и заявления владельцев поисковых сервисов, в ГСТК Интернет на сегодня практически не представлена. Использование таких поисковых систем является прерогативой серьезных организаций, специализирующихся в отрасли ИАР, и располагающих бюджетом, достаточным для закупки профессиональных поисковых систем или проведения собственных дорогостоящих исследований в области компьютерной лингвистики.

Если отвлечься от ГСТК Интернет и обратиться к проблеме поиска заданного текста на заранее сформированном универсальном массиве текстов, размещенных на отдельном компьютере или в сегменте локальной вычислительной сети, то тут следует обратиться к классу настольных и серверных поисковых систем. На отечественном рынке программного обеспечения системы подобного класса также представлены. Среди разработчиков программного обеспечения, реализующих передовые поисковые лингвистические технологии, следует выделить ЗАО «МедиаЛингва». Разработки этой фирмы, такие как «Следопыт», «Классификатор» и «Аннотатор», обеспечивают комплекс решений, позволяющих осуществлять оперативный поиск документов, их индексирование, классификацию и автоматическое аннотирование. Схожими возможностями обладают разработки НПИЦ «Микросистемы», в частности — программный продукт «TextAnalyst». Данная программа использует для решения задач распознавания слов нейросетевые технологии и, в основном, предназначена для решения задачи автоматического реферирования документов; функции поиска в этой системе также предусмотрены, однако в большей степени ориентированы на осуществление поиска в некотором подмножестве ранее обработанных и включенных в базу документов.

В основе функционирования таких систем лежат технологии искусственного интеллекта, на начальном этапе анализа текста использующие средства словарного и не словарного морфологического анализа текста, аппарат математической статистики, нейросетевые технологии, а на заключительном этапе, связанном с отбором, классификацией и аннотированием — аппарат семантических сетей, универсальные и отраслевые тезаурусы и словари. Рядом разработчиков предоставляются специализированные комплекты разработчика (так называемые SDK — Software Developer Kit), позволяющие при необходимости создавать собственное программное обеспечение, адаптированное к задачам, решаемым той или иной организацией.

Следует заметить, что проблемы анализа текстовой информации отнюдь не так просты, как это может показаться. В этой области существует масса проблем, связанных с различными этапами обработки текстов. На протяжении всего технологического цикла обработки, начиная от этапа морфологического разбора слова, и заканчивая этапом соотнесения термина с семантической категорией, разработчики технологий обработки текстов сталкиваются со сложностями как технологического, так и методологического порядка. А это означает, что в перечень проблемных этапов попадают:

— задачи установления факта принадлежности слова к некоторой части речи;

— задачи приведения слова к канонической форме;

— задачи выделения семантически связных цепочек слов;

— задачи выделения границ термина, установления его канонической формы и необходимой для его идентификации части;

— задачи восстановления системы ссылок и умолчаний;

— задачи соотнесения термина с грамматической и семантической категориями;

— задачи связывания тематически связных фрагментов текста. Неоднозначность распознавания и интерпретации слова и текста в целом является серьезнейшей проблемой, без разрешения которой достижение серьезных успехов в области анализа текстовой информации маловероятно. Для решения этой проблемы требуется обращение к методам, вовлекающим в использование контекст слова, высказывания и даже текста, с тем, чтобы локализовать предметную область, устранить последствия явления полисемии (многовариантного толкования смысла слов) и получить максимально точные результаты обработки. Тем не менее, данные проблемы постепенно находят свое решение, хотя компьютерная лингвистика по праву считается одной из сложнейших отраслей современной прикладной и теоретической науки. Одной из причин этого является и большая трудоемкость проведения эксперимента, необходимость не только тестирования, но и предварительного обучения создаваемых программных средств, а каждому читателю известно, как велико количество разнообразных исключений из правил, вариантов передачи одного и того же смысла.

Перейти на страницу:

Похожие книги

Биология добра и зла. Как наука объясняет наши поступки
Биология добра и зла. Как наука объясняет наши поступки

Как говорит знаменитый приматолог и нейробиолог Роберт Сапольски, если вы хотите понять поведение человека и природу хорошего или плохого поступка, вам придется разобраться буквально во всем – и в том, что происходило за секунду до него, и в том, что было миллионы лет назад. В книге автор поэтапно – можно сказать, в хронологическом разрезе – и очень подробно рассматривает огромное количество факторов, влияющих на наше поведение. Как работает наш мозг? За что отвечает миндалина, а за что нам стоит благодарить лобную кору? Что «ненавидит» островок? Почему у лондонских таксистов увеличен гиппокамп? Как связаны длины указательного и безымянного пальцев и количество внутриутробного тестостерона? Чем с точки зрения нейробиологии подростки отличаются от детей и взрослых? Бывают ли «чистые» альтруисты? В чем разница между прощением и примирением? Существует ли свобода воли? Как сложные социальные связи влияют на наше поведение и принятие решений? И это лишь малая часть вопросов, рассматриваемых в масштабной работе известного ученого.

Роберт Сапольски

Научная литература / Биология / Образование и наука
Эволюция: Триумф идеи
Эволюция: Триумф идеи

Один из лучших научных журналистов нашего времени со свойственными ему основательностью, доходчивостью и неизменным СЋРјРѕСЂРѕРј дает полный РѕР±Р·ор теории эволюции Чарльза Дарвина в свете сегодняшних представлений. Что стояло за идеями великого человека, мучительно прокладывавшего путь новых знаний в консервативном обществе? Почему по сей день не прекращаются СЃРїРѕСЂС‹ о происхождении жизни и человека на Земле? Как биологи-эволюционисты выдвигают и проверяют СЃРІРѕРё гипотезы и почему категорически не РјРѕРіСѓС' согласиться с доводами креационистов? Р' поисках ответа на эти РІРѕРїСЂРѕСЃС‹ читатель делает множество поразительных открытий о жизни животных, птиц и насекомых, заставляющих задуматься о людских нравах и Р­РўР

Карл Циммер

Научная литература / Биология / Образование и наука
Бог как иллюзия
Бог как иллюзия

Ричард Докинз — выдающийся британский ученый-этолог и популяризатор науки, лауреат многих литературных и научных премий. Каждая новая книга Докинза становится бестселлером и вызывает бурные дискуссии. Его работы сыграли огромную роль в возрождении интереса к научным книгам, адресованным широкой читательской аудитории. Однако Докинз — не только автор теории мемов и страстный сторонник дарвиновской теории эволюции, но и не менее страстный атеист и материалист. В книге «Бог как иллюзия» он проявляет талант блестящего полемиста, обращаясь к острейшим и актуальнейшим проблемам современного мира. После выхода этой работы, сегодня уже переведенной на многие языки, Докинз был признан автором 2006 года по версии Reader's Digest и обрел целую армию восторженных поклонников и непримиримых противников. Споры не затихают. «Эту книгу обязан прочитать каждый», — считает британский журнал The Economist.

Ричард Докинз

Научная литература