В статье «Автоматизированная гендерная классификация письменных текстов», опубликованной в 2001 году, три исследователя ухитрились добиться 80 % точности, отличая авторов-мужчин от авторов-женщин, просто за счет подсчета частотности употребления нескольких простых слов[208]. Более поздняя статья, озаглавленная «Пол, жанр и стиль письма в официальных письменных текстах», содержит изложение этого отличия в простых терминах[209]. Во-первых, мужчины используют больше определяющих слов при существительных (определенный и неопределенный артикль, «некоторый», «самый» и т. д.). Во-вторых, женщины используют больше местоимений («мне», «он сам», «наш», «они» и т. д.).
Даже частотность одного-единственного невинного слова «ты» дает ключ к пониманию пола автора:
Точность системы особенно впечатляет, если учесть ее абсолютную простоту. Этот подход игнорирует весь контекст, весь смысл, чтобы сосредоточиться на словесных щепках. Блатт отмечает, что в соответствии с этой методикой фраза «Эта фраза написана женщиной», скорее всего, будет классифицирована как написанная мужчиной. Если вы посмотрите шире и будете учитывать все слова, а не только крошечные вспомогательные, результаты станут стереотипными. Когда компания по сбору данных под названием
В книге «Любимое слово Набокова — лиловый» Бен Блатт приводит свои изыскания по поводу маркеров пола автора в классической литературе:
Похоже, программа «Под волшебным соусом» тоже использует такого рода подсказки. Когда математик Кэти О’Нил опробовала этот алгоритм на текстах мужчин о моде, они определились как женские на 99 %. А тексты женщин о математике оказались якобы на 99 % мужскими. Три текста самой О’Нил оказались мужскими на 99 %, 94 % и 99 %. «Моя выборка мала, — пишет она, — но я готова поспорить: эта модель основана на том стереотипе, что можно определить пол автора по выбранной им теме»[211].
Несмотря на то что эти алгоритмы неточны, у меня по-прежнему холодок бежит по коже. Похоже, маскулинность настолько пронизала мои мысли, что алгоритм может выявить мой пол двумя независимыми путями: определив, насколько часто я использую те или иные местоимения или насколько нежно я привязан к Евклиду.
Я отдаю себе отчет, что в некотором роде все это оправдывает мнение Вирджинии Вулф[212]. Она видела, что мужчины и женщины живут в разных мирах, и верила: борьба за то, чтобы дать голос женщинам, должна начаться на всех уровнях, вплоть до построения фразы. Грубая статистика подтверждает эту точку зрения: женщины пишут иначе, чем мужчины, и выбирают другие темы. И все же я немного удручен. Если тексты Вирджинии Вулф свидетельствуют о ее женственности, то мне нравится думать, что это связано с ее мудростью и чувством юмора, а не с низкой плотностью определителей при существительных. Когда Вирджиния Вулф разграничивает мужскую и женскую прозу, возникает ощущение, что ты обратился к проверенному врачу. Когда то же самое проделывает алгоритм, кажется, что тебя обыскивают в аэропорту.
4. Дом, кирпичи и известь
«Записки федералиста», написанные в 1787 году, помогли задать американскую форму правления. Они полны политической мудрости, изощренной аргументации и неустаревающих афоризмов («зрелище смут и раздоров» — вы оценили?). Это могло бы стать убойной строчкой в резюме, но есть одна загвоздка.
Авторы не подписали свои имена.
Историки смогли установить, что 43 письма написаны Александром Гамильтоном, 14 — Джеймсом Мэдисоном, пять — Джоном Джеем и еще три письма написаны в соавторстве. Однако оставалось тайной, кто авторы еще 12 писем. Гамильтон или Мэдисон? Даже два века спустя головоломка не была разгадана.
Наступили 1960-е годы, и на сцене появились два специалиста по статистике: Фредерик Мостеллер и Дэвид Уоллес[213]. Фред и Дейв осознали всю тонкость проблемы. Предложения, написанные Гамильтоном, состояли в среднем из 34,55 слов; написанные Мэдисоном — в среднем из 34,59 слов. «По некоторым параметрам, — пишут исследователи, — авторы почти что близнецы». И дальше они сделали шаг, который совершают все специалисты по статистике, когда сталкиваются с изощренной проблемой.
Они порезали «Записки федералиста» на мелкие куски[214].
Контекст? Неважен. Смысл? Уничтожен. Пока «Записки» оставались набором текстов отцов-основателей, они были бесполезны. Они должны были стать клочками бумаги, совокупностью тенденций — иными словами, набором данных.
Даже после этого большинство слов оставались бесполезными. Их частотность зависела не от автора, а от темы. Например, «война». «Когда речь шла о вооруженных силах, частота предсказуемым образом была высокой, — пишут Фред и Дэйв. — Когда речь шла о выборах — низкой». Они присвоили таким словам статус «контекстуальные» и предприняли все усилия, чтобы избавиться от них. Они были слишком осмысленными.