Читаем Аналитика полностью

Остановимся на средствах сбора наиболее очевидных и наименее достоверных данных — данных языковых коммуникаций и знаковых данных. В последние годы в этой отрасли развитие средств сбора происходит доселе невиданными темпами. Созданы средства распознавания и преобразования к символьному виду речевых сигналов, средства распознавания графических начертаний символов (оптические распознающие системы — сканеры), средства считывания картографических данных и т. п. графической информации. Создание этих средств дало мощный толчок развитию систем компьютерной обработки знаковых данных: сегодня, благодаря их использованию, аналитики получили доступ к неисчерпаемым ресурсам научно-технической, политической, экономической и иной информации. Пока лишь малая толика того, что хранится в глобальной телекоммуникационной сети (ГСТК) Интернет, набрана вручную — преимущественно эти ресурсы получены методом сканирования самых разнообразных печатных источников, хотя, наиболее вероятно, что постепенно ситуация будет меняться в пользу ресурсов, полученных методом голосового ввода.

В последние годы силами энтузиастов в ГСТК размещены электронные копии уникальных изданий. Мощные массивы англоязычных электронных документов сосредоточены в рамках некоммерческого проекта электронной библиотеки Project Gutenberg (http://www.gutenberg.net/). Российские ресурсы электронных копий научных, учебных и художественных изданий и также весьма обширны: здесь и Библиотека Мошкова (http://lib.ru/), и Big Information System Project (http://nmsf.sscc.ru/), и Открытая Русская Электронная Библиотека (http://orel.rsl.ru/), и Домашняя электронная библиотека (http://kniga.bibirevo.net/), и многие другие ресурсы. Однако в силу стремления к личной известности начинателей бесплатных электронных библиотек (следует отдать им должное — это достойные люди), в российском сегменте Интернет, получившем название «Рунет», отсутствует единый каталог, а система каталогизации далека от совершенства. За рубежом интенсивно развиваются проекты, направленные на стандартизацию поисковых интерфейсов и формата представления электронных документов. Так, например, в библиотечном деле широко внедряется стандарт представления текстовых данных для организации поисковых интерфейсов Z39.50 и его международная версия ISO 23950, развивается проект TEI — Text Encoding Initiative, выпустивший уже четвертую спецификацию стандарта — в России же этот процесс существенно запаздывает. Такое отставание снижает ценность информационных ресурсов, поскольку отсутствие четких правил формализации приводит к снижению эффективности поисковых процедур.

Интересный класс электронных информационных ресурсов оперативного плана — это электронные СМИ, размещающие и распространяющие свою информационную продукцию с применением инфраструктуры глобальных и национальных телекоммуникационных сетей. В ГСТК Интернет функционируют СМИ и информационные агентства, предоставляющие оперативную информацию, используя on-line (интерфейсы функционирующие в режиме непосредственного доступа) и off-line (интерфейсы функционирующие в режиме неоперативного доступа, например, рассылка новостей за некоторый интервал времени посредством электронной почты). В настоящее время в ГСТК представлены ведущие мировые информационные агентства (Associated Press, CNN, France Press, Интерфакс, АПН «Новости», ИТАР-ТАСС и многие другие) и газеты (New York Times, Washington Post, Газета. Яи и иные). Чрезвычайно информативны ленты новостей, предоставляемые информационными агентствами в режиме on-line с периодичностью обновления порядка единиц минут, биржевые рейтинги, публикуемые крупнейшими финансовыми и фондовыми биржами и крупными брокерскими объединениями.

Инструментарий сбора информации из подобных источников информации представляет собой преимущественно программно-аппаратные комплексы, обеспечивающие подключение к ресурсам телекоммуникационных сетей в соответствии с действующими протоколами обмена данными (как правило, это протоколы TCP/IP, PPP, SLIP, ISDN) и востребование данных с применением как профессионального, так и непрофессионального специализированного и общего программного обеспечения. Этот класс программного обеспечения весьма многообразен и включает в себя: интеллектуальные поисковые программы, неинтеллектуальные интерфейсы просмотра данных, программы, осуществляющие периодическое сканирование наиболее информативных источников, программы потокового ввода и иные. Финансовые механизмы обеспечения оплаты информационных услуг могут существенно разниться от условно-бесплатного предоставления информации (подача в сопровождении рекламы) до заключения договоров на информационное обслуживание.

Перейти на страницу:

Похожие книги

Биология добра и зла. Как наука объясняет наши поступки
Биология добра и зла. Как наука объясняет наши поступки

Как говорит знаменитый приматолог и нейробиолог Роберт Сапольски, если вы хотите понять поведение человека и природу хорошего или плохого поступка, вам придется разобраться буквально во всем – и в том, что происходило за секунду до него, и в том, что было миллионы лет назад. В книге автор поэтапно – можно сказать, в хронологическом разрезе – и очень подробно рассматривает огромное количество факторов, влияющих на наше поведение. Как работает наш мозг? За что отвечает миндалина, а за что нам стоит благодарить лобную кору? Что «ненавидит» островок? Почему у лондонских таксистов увеличен гиппокамп? Как связаны длины указательного и безымянного пальцев и количество внутриутробного тестостерона? Чем с точки зрения нейробиологии подростки отличаются от детей и взрослых? Бывают ли «чистые» альтруисты? В чем разница между прощением и примирением? Существует ли свобода воли? Как сложные социальные связи влияют на наше поведение и принятие решений? И это лишь малая часть вопросов, рассматриваемых в масштабной работе известного ученого.

Роберт Сапольски

Научная литература / Биология / Образование и наука
Эволюция: Триумф идеи
Эволюция: Триумф идеи

Один из лучших научных журналистов нашего времени со свойственными ему основательностью, доходчивостью и неизменным СЋРјРѕСЂРѕРј дает полный РѕР±Р·ор теории эволюции Чарльза Дарвина в свете сегодняшних представлений. Что стояло за идеями великого человека, мучительно прокладывавшего путь новых знаний в консервативном обществе? Почему по сей день не прекращаются СЃРїРѕСЂС‹ о происхождении жизни и человека на Земле? Как биологи-эволюционисты выдвигают и проверяют СЃРІРѕРё гипотезы и почему категорически не РјРѕРіСѓС' согласиться с доводами креационистов? Р' поисках ответа на эти РІРѕРїСЂРѕСЃС‹ читатель делает множество поразительных открытий о жизни животных, птиц и насекомых, заставляющих задуматься о людских нравах и Р­РўР

Карл Циммер

Научная литература / Биология / Образование и наука
Бог как иллюзия
Бог как иллюзия

Ричард Докинз — выдающийся британский ученый-этолог и популяризатор науки, лауреат многих литературных и научных премий. Каждая новая книга Докинза становится бестселлером и вызывает бурные дискуссии. Его работы сыграли огромную роль в возрождении интереса к научным книгам, адресованным широкой читательской аудитории. Однако Докинз — не только автор теории мемов и страстный сторонник дарвиновской теории эволюции, но и не менее страстный атеист и материалист. В книге «Бог как иллюзия» он проявляет талант блестящего полемиста, обращаясь к острейшим и актуальнейшим проблемам современного мира. После выхода этой работы, сегодня уже переведенной на многие языки, Докинз был признан автором 2006 года по версии Reader's Digest и обрел целую армию восторженных поклонников и непримиримых противников. Споры не затихают. «Эту книгу обязан прочитать каждый», — считает британский журнал The Economist.

Ричард Докинз

Научная литература