Заглавные буквы после косой черты – сокращенные обозначения частей речи. Слово
Исследователи используют разные способы обучения компьютеров распознаванию частей речи. Но в большинстве этих способов задействован обширный корпус предложений, уже размеченных людьми. Специалисты по грамматике часами сидят над текстами, помечая части речи, а затем эти размеченные предложения загружают в программу в качестве обучающих данных. На основе этих данных машина строит статистическую модель, которая вычисляет вероятность появления той или иной комбинации слов. Например, компьютер может заметить, что после слова
Распознавание именованных сущностей (NER) – другая область обработки естественного языка, тесно связанная с нашими исследованиями. Именованная сущность – это человек, географический объект или организация: Лисбет Саландер, Нью-Йорк, Microsoft. Распознавание подобных грамматических объектов позволяет находить ответы на разные вопросы – например, влияет ли место, где происходит действие романа, на факт его попадания в списки бестселлеров? Мы, разумеется, задались этим вопросом и обнаружили следующее: для того, станет ли роман бестселлером, важно, происходит ли действие в городе или где-нибудь в лесу. Конкретный город не важен. Роман, герои которого живут в Нью-Йорке, имеет столько же шансов, сколько и роман, герои которого живут в Стокгольме.
В 5-й главе мы использовали NER для лучшего понимания героев книг и исследования их агентивности. Но еще важнее для изучения персонажей оказался метод, называемый разбором зависимостей. Программы для разбора зависимостей анализируют предложение и размечают его синтаксическую структуру. Программа разбора понимает, какие слова связаны между собой и где в предложении подлежащее, сказуемое и дополнение. Как и описанный выше алгоритм разбора по частям речи, эта программа использует информацию из предложений, предварительно разобранных специалистами-людьми. Эта информация помогает определять наиболее вероятную структуру введенных в программу предложений. Для 5-й главы нам нужно было исследовать агентивность героев на основе глаголов, обычно связанных с мужскими и женскими персонажами[253]. Возьмем, например, это предложение из «Сферы»:
nsubj(knew-2, Mae-1)
root(ROOT-0, knew-2)
nsubj(watching-5, Renata-3)
aux(watching-5, was-4)
ccomp(knew-2, watching-5)
dobj(watching-5, her-6)
cc(knew-2, and-8)
nsubj(knew-10, she-9)
conj(knew-2, knew-10)
nmod: poss(face-12, her-11)
nsubj(betraying-14, face-12)
aux(betraying-14, was-13)
ccomp(knew-10, betraying-14)
dobj(betraying-14, something-15)
case(horror-17, like-16)
nmod(betraying-14, horror-17)
Первая строка вывода показывает связь подлежащего (