Большое признание в последнее время в Америке получили разработки Р. Петерссона, исследователя из Стэндфордского университета. В качестве неструктури- рованных данных для прогнозирования он использовал не Twitter, а контент социальных СМИ, т.е. платформ, где контент создают сами пользователи. Таких платформ с качественным контентом в англоязычном интернете на- считывается сотни.
Его исследования были восприняты компанией MarketPsych. Был создан прогностический модуль. Он уверенно дает при достаточно консервативной страте- гии 30% прибыли в год. В настоящее время эта компания приобретена крупнейшим информационным провай- дером, всемирно известным Thompson Reuters. Соот- ветственно прогнозы получают подписчики Thompson Reuters, интересующиеся инвестиционной и политиче- ской тематикой.
Совсем недавно за разработку системы, аккумули- рующей информацию Twitter для трейдинга, взялась компания Titan Trading Analytics. В своей системе они ис- пользуют 1500 ключевых слов и более 600 факторов. Как видим, создание и практическое использование про- грамм прогнозирования, базирующихся на неструкту- рированных данных web 2 и прежде всего Twitter, стало
Глава 3 БОЛЬШИЕ ДАННЫЕ
сегодня повсеместной практикой инвестиционных, ма- кроэкономических и политических аналитиков.
Огромную роль в современном геополитическом, военном и инвестиционном прогнозировании играют общедоступные данные, связанные с частотой поис- ковых запросов, которые постоянно публикуют главные поисковики мира, прежде всего, Google и Bing. В нынеш- ней реальности любой поисковый запрос представляет собой фиксацию процесса мышления о чем-то. Он пока- зывает нам объект этого мышления, его последователь- ность и многое другое. Когда интернет с одной стороны стал доступен для подавляющего большинства жителей в развитых странах в режиме онлайн нон-стоп, а с другой, пользователи приучились к интернету, как к источнику мгновенного получения любой интересующей информа- ции, использование поисковиков для прогнозирования стало возможным.
К настоящему времени независимыми группами ис- следователей, использующих различные методы и алго- ритмы обработки поисковых запросов в целях прогнози- рования установлено, что особым образом обработанная статистика поисковых запросов может выполнять роль опережающих индикаторов для целого ряда рынков и экономических параметров. В частности, это относится к динамике безработицы в США, Германии, Франции; динамике потребительских расходов на рынках электро- ники США, странах ЕЭС, Канаде; ценам на недвижимость США и Великобритании; биржевым индексам на «голу- бые фишки» на Нью-Йоркской и Лондонской биржах и фьючерсам на биржевой индекс китайских акций на Гон- конгской бирже.
Уже полгода Министерство здравоохранения США успешно использует систему, построенную на анализе поисковых запросов для опережающего мониторинга и прогнозирования различного рода эпидемий в стране. На сегодняшний день обнаружено более 50 показателей,
Елена Ларина, Владимир Овчинский
КИБЕРВОЙНЫ XXI ВЕКА. ВОЗМОЖНОСТИ И РИСКИ ДЛЯ РОССИИ
относительно которых поисковая статистика Google мо- жет быть использована как опережающий индикатор.
Вторым, бурно развивающимся направлением про- гнозных вооружений, являются так называемые реко- мендательные системы. Эти системы базируются на тща- тельном анализе поведения человека в сети. При этом анализируются не только его желания, высказанные в виде различного рода поисковых запросах, но и поведе- ние на сайтах крупных интернет-магазинов – например, что человек ищет, как долго рассматривает что-либо и т.п. Используется здесь так называемый неявный сбор данных, когда все действия человека в сети протоколи- руются. Затем, на основе сложных алгоритмов выдаются рекомендации, которые подталкивают человека к тому или иному выбору. Наиболее известные рекомендатель- ные системы созданы Amazon для книг и других товаров, продаваемых на этой универсальной платформе, eBay, Cinemax.com (рекомендации в отношении фильмов, де- монстрируемых в кинотеатрах), Videoguide (для потоко- вого видео) и т.п.
Во время последней избирательной кампании ко- манда Б. Обамы, договорившись с крупнейшими реко- мендательными платформами, успешно использовала их опыт для рекомендации Б. Обамы в качестве лучшего выбора для выявленных опять же по специальным ал- горитмам колеблющихся избирателей и людей, которые вообще не собирались идти на выборы. По оценкам американских экспертов использование этой системы сыграло едва ли не решающую роль в победе Б. Обамы в кампании 2012 года.
Сегодня крупнейшие банки являются клиентами рекомендательной германской компании Kreditech. Гамбургский стартап Kreditech использует во время при- нятия решений информацию, почерпнутую из Facebook. Людей, претендующих на получение кредита, просят на время предоставить доступ к их учётной записи в
Глава 3 БОЛЬШИЕ ДАННЫЕ