Читаем Аналитика полностью

Одним из вариантов решения задачи является использование неавтоматизированного режима поиска и отбора информации (в этом случае массив источников последовательно прочитывается на предмет поиска необходимой информации, и тексты, содержащие необходимые сведения подвергаются копированию/перемещению в некоторую область дискового пространства и/или каталогизации, при этом возможно параллельное аннотирование/комментирование текстов). Однако на достаточно больших массивах текстов такая технология представляется крайне трудоемкой и малоэффективной. Несмотря на то, что существуют технологии быстрого чтения, обеспечивающие человеку за счет оптимизации траектории перемещения точки фиксации зрения по носителю текста скорость чтения порядка 3000 знаков в минуту, эти технологии не могут сравниться с быстродействием, которое способны обеспечить компьютерные системы. Поэтому основное внимание мы сосредоточим на инструментальном обеспечении процессов поиска, отбора и экспресс анализа текстовых данных.

Тем не менее, начальный этап поиска, а именно, синтез поискового задания, требует привлечения интеллектуальных усилий аналитика.

Существует один, возможно, экстравагантный, но эффективный подход к формированию поискового словаря в условиях слабого знакомства с предметной областью исследований: он заключается в использовании… разнообразных словарей, предназначенных для любителей отгадывания кроссвордов. Учитывая, что систематические тезаурусы представляют собой достаточно редкое явление (рынок сбыта таких изданий весьма специфичен и тиражи невысоки), такие словари могут служить неплохим инструментом для подобных исследований. Зная цель исследования, по подобному словарю аналитик может отобрать ключевые слова, наиболее ярко свидетельствующие о принадлежности текста к заданной отрасли.

После того, как первая версия поискового словаря создана, дальнейшие операции могут быть возложены на ЭВМ. Произведя первичный поиск и обнаружив в массиве текстов/документов текст, содержащий ключевые слова и наилучшим образом освещающий исследуемую проблему, аналитик переходит к следующему этапу — этапу коррекции поискового словаря. Наиболее распространенным подходом в настоящее время является статистический подход, основанный на применении статистических закономерностей, открытых Дж. К. Зипфом (в этой книге мы уже упоминали закон Зипфа-Мандельброта или принцип экономии в лингвистике). В результате построения частотно-рангового распределения длин слов в данном тексте выбирается специфичный для данного языка диапазон частот встречаемости слов — именно в этом диапазоне будут содержаться те слова, которые наилучшим образом отражают тематику и содержание текста. Однако ориентация этого метода на такую единицу как слово, несколько сокращает полезность этого метода, поскольку человеку свойственно оперировать не столько словами, сколько терминами (то есть, сочетаниями слов, обеспечивающими наилучшее различение описываемых сущностей).

Так или иначе, но закономерности Зипфа широко используются в компьютерных системах анализа текстов и формирования поисковых словарей. Наибольшее распространение эти методы получили в поисковых системах ГСТК Интернет. Поэтому, если вы хотите получить наилучшие результаты при поиске информации с применением специальных поисковых серверов, вам имеет смысл вооружиться настольной компьютерной системой, на которой установлено программное обеспечение, реализующее функцию генерации поискового словаря по той же схеме (с теми же критериями), что реализуется поисковым сервером. В настоящее время поисковые системы, основанные на использовании статистических закономерностей, наиболее широко представлены на рынке и предоставляют пользователю различные возможности при осуществлении поиска. Наиболее распространен следующий набор сервисов/режимов (опций):

— поиск точного совпадения слова или словосочетания, обеспечивающий возможность обнаружения в тексте точной копии слова или словосочетания, указанного в поисковом задании;

— адаптивный поиск, обеспечивающий поиск фразы, указанной в поисковом задании, с учетом словоизменения;

— адаптивный поиск, обеспечивающий поиск отдельных компонентов фразы, указанной в поисковом задании, с учетом словоизменения, возможности использования усеченных форм и разнесения компонентов фразы по тексту на некоторое фиксированное расстояние (измеренное в словах);

Перейти на страницу:

Похожие книги

Биология добра и зла. Как наука объясняет наши поступки
Биология добра и зла. Как наука объясняет наши поступки

Как говорит знаменитый приматолог и нейробиолог Роберт Сапольски, если вы хотите понять поведение человека и природу хорошего или плохого поступка, вам придется разобраться буквально во всем – и в том, что происходило за секунду до него, и в том, что было миллионы лет назад. В книге автор поэтапно – можно сказать, в хронологическом разрезе – и очень подробно рассматривает огромное количество факторов, влияющих на наше поведение. Как работает наш мозг? За что отвечает миндалина, а за что нам стоит благодарить лобную кору? Что «ненавидит» островок? Почему у лондонских таксистов увеличен гиппокамп? Как связаны длины указательного и безымянного пальцев и количество внутриутробного тестостерона? Чем с точки зрения нейробиологии подростки отличаются от детей и взрослых? Бывают ли «чистые» альтруисты? В чем разница между прощением и примирением? Существует ли свобода воли? Как сложные социальные связи влияют на наше поведение и принятие решений? И это лишь малая часть вопросов, рассматриваемых в масштабной работе известного ученого.

Роберт Сапольски

Научная литература / Биология / Образование и наука
Эволюция: Триумф идеи
Эволюция: Триумф идеи

Один из лучших научных журналистов нашего времени со свойственными ему основательностью, доходчивостью и неизменным СЋРјРѕСЂРѕРј дает полный РѕР±Р·ор теории эволюции Чарльза Дарвина в свете сегодняшних представлений. Что стояло за идеями великого человека, мучительно прокладывавшего путь новых знаний в консервативном обществе? Почему по сей день не прекращаются СЃРїРѕСЂС‹ о происхождении жизни и человека на Земле? Как биологи-эволюционисты выдвигают и проверяют СЃРІРѕРё гипотезы и почему категорически не РјРѕРіСѓС' согласиться с доводами креационистов? Р' поисках ответа на эти РІРѕРїСЂРѕСЃС‹ читатель делает множество поразительных открытий о жизни животных, птиц и насекомых, заставляющих задуматься о людских нравах и Р­РўР

Карл Циммер

Научная литература / Биология / Образование и наука
Бог как иллюзия
Бог как иллюзия

Ричард Докинз — выдающийся британский ученый-этолог и популяризатор науки, лауреат многих литературных и научных премий. Каждая новая книга Докинза становится бестселлером и вызывает бурные дискуссии. Его работы сыграли огромную роль в возрождении интереса к научным книгам, адресованным широкой читательской аудитории. Однако Докинз — не только автор теории мемов и страстный сторонник дарвиновской теории эволюции, но и не менее страстный атеист и материалист. В книге «Бог как иллюзия» он проявляет талант блестящего полемиста, обращаясь к острейшим и актуальнейшим проблемам современного мира. После выхода этой работы, сегодня уже переведенной на многие языки, Докинз был признан автором 2006 года по версии Reader's Digest и обрел целую армию восторженных поклонников и непримиримых противников. Споры не затихают. «Эту книгу обязан прочитать каждый», — считает британский журнал The Economist.

Ричард Докинз

Научная литература