Учитывая короткий текст новости, на следующем рисунке часть информации представлена в неструктурированной форме. Красные и темно-серые пометки выделяют компанию, которую необходимо искать в тексте, зеленые и серые пометки выделяют показатели, а светло-зеленые и светло-серые указывают числа, найденные в тексте. Далее следует наиболее важный шаг: все эти показатели, формулировки, временные отрезки, лица или компании связываются и переплетаются в едином контексте. Таким образом, в этом примере мы понимаем, что доход IBM упал до $22,4 млрд в III квартале. Трейдеры могли бы использовать эту конкретную информацию, чтобы продать акции, если их ожидания не были оправданы, или в противном случае купить их.
ATRAP – это программа для обработки новостей по торгам в режиме реального времени. Она способна проводить текстовый анализ и имеет огромные возможности для настройки параметров торгов после анализа неструктурированного текста. К примеру, трейдер настраивает программу таким образом: он будет продавать свои акции IBM, если его ожидания прибыли в размере $25 млрд не сбываются, и он будет покупать акции, если ожидания сбываются. Когда появляется новость, ATRAP проверяет факты, и, если они отвечают (неважно каким образом) указанным условиям, автоматически размещает заказ на рынке. Следующий рисунок демонстрирует снимок экрана ATRAP с успешной сделкой. Скорость проведения анализа позволяет ATRAP размещать заказы раньше других и до того, как торги будут приостановлены.
Формулировки найти проще, если они есть в тексте. Однако очень часто трудно оценить влияние котировок. При большом риске появляются и лучшие возможности получения прибыли. ATRAP продемонстрировала свои возможности и становилась одним из первых покупателей в мире, когда происходило значимое событие.
События и решения об инвестициях
Определение аналитических рейтингов в тексте, таких как «Кредит Сюис подняла рейтинг Daimler с HOLD до BUY», может быть осуществлено при помощи автоматизированного анализа. Кредит Сюис – это рейтинговое агентство, Daimler – оцениваемая компания, и событие оценки «подняла рейтинг с HOLD до BUY» указывает на положительное развитие. Использование этого анализа в секторе частных инвестиций, где нет структурированных каналов данных, может быть полезным.
Возможно распознавание рейтинговых событий, но как распознавать более общие новости? Политические события, события в мире бизнеса, такие как слияние компаний, отставка генерального директора или даже стихийное бедствие, – люди могут узнать обо всех таких новостях. Используя эту информацию, трейдеры получают мгновенные предупреждения или информацию о том, произошло ли подобное событие и рискованно ли оно для их инвестиций.
Получение информации о настроениях и мнениях
Свежие новости или противоречивые сообщения в социальных сетях могут оказывать колоссальное влияние на мнение о компании или ее активах. Такая эмоциональная составляющая – сущность настроения на рынке – часто выражается в анализах, рыночных отчетах, причем все чаще посредством социальных сетей. Оценка настроения на рынке, основанная на новостях и сообщениях в Twitter, должна отражать самые последние сообщения, отчеты и анализы, чтобы приносить пользу. Повторяющееся освещение одной и той же темы в СМИ скорее всего окажет большее воздействие, чем единичное появление новости; надежность автора или источника информации также играют свою роль. Автоматическая оценка настроения, заложенного в тексте (извлечение информации о мнениях и анализ настроения, основанные на лингвистическом анализе), требует как экспертных финансовых знаний, так и глубокого понимания того, как разные мнения выражаются на различных медийных платформах: Twitter имеет отличительный словарь, каждый язык и даже каждый домен для выражения мнения использует различные речевые обороты и фразы.
Распознавание понятий и объектов, таких как данные аналитики, названия компаний или стран, обсуждалось ранее при разборе процесса распознавания понятия. Языковые образы, выражающие позитивное или негативное настроение, могут быть присвоены распознаваемой компании. Пример на рис. 4 позволяет присвоить две разные оценки (перспективу роста/остановки роста) соответствующим ценным бумагам.
Twitter описывается как «по-видимому, остановившийся», в то время как Facebook представлен как «растущий», что приводит к негативной оценке первого и позитивной оценке второго. Дифференцированное назначение каждой оценки соответствующему понятию является основополагающим для лингвистического движка econob и важным для дальнейшего анализа. Может собираться набор различных мнений в отношении одного объекта, из которого получается единая и единственная оценка для компании в каждом отрывке текста. Анализ еще более коротких текстов помогает получить общее представление, особенно если представлено много информации. Для примера посмотрите на твиты о Греции на рис 5.