Роджет ничего не знал и, разумеется, не мог знать, каких результатов достигнут науки, занимающиеся проблемой смысла, но он интуитивно понял основные принципы составления тезаурусов: сначала собираются слова из текстов или различных словарей. Затем слова эти выстраиваются по алфавиту, а после из них образуются определение группы, связанные по смыслу.
Какой может быть эта смысловая связь? Во-первых, одно и то же значение можно выразить с помощью разных слов или оборотов. Вполне понятно, что все синонимы будут объединены. Во-вторых, смыслы слов могут быть полностью противоположны (как антонимы типа
Специалистам в данной области науки нетрудно выделить термины, которыми эта наука пользуется. Сложнее построить иерархию из слов-терминов по смыслу. Однако и эта задача разрешима логическим путем. Можно разграничить смысл слов и словосочетаний, которые образуют новые значения. Например, термины
С ассоциациями дело обстоит много сложней. Ибо здесь действуют законы не двузначной, а многозначной логики.
В тезаурусах группируются, например, понятия
Еще в 1942 году американский исследователь А. Л. Болдуин попытался внести количественные меры в изучение смысловых связей между словами. Он подсчитал совместную встречаемость слов в письмах, написанных одной женщиной, и показал, что частоты их могут быть указателями настроений этой женщины, круга ее интересов и т. п. С тех пор предложено несколько десятков формул, по которым можно вычислять смысловые связи слов.
Применяются для выявления этих связей и электронные вычислительные машины.
Конечно, как замечает один из специалистов по информатике — Р. М. Нидхем, «нельзя ожидать, что в результате нескольких часов работы ЭВМ. будет получено нечто, что могло бы сразу же заменить интуицию и труд ученого (который все равно необходим при выборе единиц анализа и интерпретации результатов). На что мы можем надеяться — так это на то, что выявятся группы слов, ранее не замеченные, но потенциально возможные».
Тезаурусы составляются учеными в «союзе» с машиной.
Сначала группа специалистов подчеркивает термины в данной области знания. Затем тексты вводятся в ЭВМ, которая выдает эти слова в исходной форме, то есть в именительном падеже, единственном числе и т. п. Потом специалисты разбивают на участки смысловое «поле», внутри этих участков производят более мелкое деление, а полученную схему оформляют в виде анкеты.
Анкета заполняется специалистами по каждому термину, а затем она поступает в ЭВМ, которая объединяет все термины, имеющие одинаковые признаки. И, наконец, человек составляет из них тезаурус.
Семантические множители
Нельзя ли использовать тезаурусы в качестве языка-посредника при машинном переводе? Этой мыслью задались английские ученые Кембриджской лингвистической группы.
В 1959 году один из крупнейших авторитетов в области машинного перевода, Бар-Хиллел, заявил, что высококачественный перевод с помощью ЭВМ принципиально невозможен. Ибо в нашем языке есть такая многозначность слов, которую нельзя ликвидировать, не обращаясь к внешнему миру, к внеязыковой, или, как говорят ученые, экстралингвистической ситуации, машине недоступной. Бар-Хиллел привел образец подобного рода принципиально непереводимой фразы… И в том же году сотрудники Кембриджской группы добились правильного машинного перевода этой фразы!