В английском падежей меньше, корни слов изменяются только в исключительных случаях, например в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. То есть англоязычным поисковикам, чтобы понять русскую речь, надо менять алгоритм поиска в соответствии с русской морфологией.
И другой подход к поиску в русскоязычном секторе Интернета не работает. Бессмысленная тупиковая самонадеянность западных поисковиков, которые пытались нахрапом захватить русскоязычный поиск в 1990-х гг. и даже в первой половине 2000-х, создавая русский интерфейс на основе английского языка, свидетельствует именно об этом.
Основатели «Яндекса» это понимали еще в середине 1990-х гг. Тогда же был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю — если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения.
Елена Колмановская уточняет: «В Рунет “Яндекс” попал почти случайно. Мы ведь продавали “искалки”. Вот и сделали демоверсии на трех красивых примерах: Библии, полном собрании сочинений Пушкина и Рунете, тогда, в 1997 г., в сумме тянувшем на 4–5 ГБ. Пользователи были потрясены. Еще бы! Например, на слово “жених” выскакивало аж 48 ссылок!»
«К 1996 г. мы уже попали на улицу Губкина, в Институт генетики, в теплицу. Так что “Яндекс”, можно сказать, рождался в теплице». При этом поисковик, по словам Воложа, был рассчитан лишь на поиск покупателей собственно самой программы, а не пользователей этой программы. «Когда примерно в 1995–1996 гг. появился Интернет, мы поняли, что вот есть еще одно место, куда его применить, — поиск по сайту сделать… Мы думали, что будем жить от продажи своих технологий другим компаниям. Приходили, например, в “Рамблер”, поиск которого не знал русского языка, в “Инфоарт”… Мы говорили: хорошо бы соединить ваш прекрасный поиск с нашими замечательными лингвистическими технологиями. Но как-то они не загорелись… Предлагали выкупить нашу технологию за $15 000, потом за $50 000, никто не покупал… В попытке как-то еще разрекламировать эту технологию мы запустили сайт http://yandex.ru
, на котором, собственно, демонстрировали — мы надеялись, что поиск по вебу это будет хорошая демонстрация, — что мы умеем на самом деле делать. Серьезно». Похоже, когда Воложу вспоминается начальный период становления «Яндекса», он сам удивляется своей тогдашней наивности и неумению понять перспективы. Это теперь все очевидно, а тогда надо было деньги зарабатывать.Потенциальным покупателям программы объясняли преимущества поиска, основанного на принципах русской морфологии (строение слов в их различных грамматических формах), что позволяло искать ответ на запрос в несколько раз результативнее и точнее, чем у существующих тогда конкурентов. Но не судьба.
Получается, что до сентября 1997 г., когда «Яндекс» вошел в Интернет, чтобы там и остаться, отцы-основатели продолжали упорно продавать свой алгоритм поиска уже работающим в Интернете поисковикам.
Впрочем, ясности не будет и спустя несколько лет.
«Когда сюда в 2003 г. приезжали гугловские ребята, мы с Сегаловичем пытались и им продать эту идею. Но они сказали, что это неважно — то есть для России, может, и важно, но не в международном масштабе. А через несколько лет они сделали то же самое не только для России, но и для арабского мира — в общем, поняли, что идея все-таки хорошая». Нет, все-таки доля везения, доля случая в судьбе человека очень велика. И даже в судьбе самых удачливых и умных, умеющих анализировать данные, как, например, Аркадий Волож.
Это его откровение показывает следующее. Даже когда стало ясно, что технология морфологического поиска оказалась значительнее и важнее прикладных задач, ради решения которых эту технологию создавали, ее создатели отчетливо еще не осознавали, что они уцепили за бороду бога.
Как же велика доля случая, который сделал «Яндекс» первым русским поисковиком, использующим технологию поиска, основанную на принципах русской морфологии. И косвенным образом утвердившего в мировой Сети принцип морфологического поиска!
Глава 5
Web-cказочники из Яndex