Читаем Яндекс Воложа полностью

Морфология (от греч. morhpe — форма, logos — учение) — изучает слова как части речи с точки зрения их грамматических свойств, это наука о правилах словоизменения и словообразования. Основа морфологии: корень, суффикс, приставка, окончание (или флексия — самая большая головная боль разработчиков русскоязычных поисковиков), которое способно меняться в зависимости от рода, числа и падежа. Морфология русского языка еще в 1970-х гг. была исчерпывающе описана Андреем Анатольевичем Зализняком, будущим академиком Российской академии наук. Результатом этого научного прорыва стали базовые труды для русской морфологии — «Русское именное словоизменение» (1967) и особенно «Грамматический словарь русского языка» (1977), в котором для 100 000 слов русского языка указана точная модель словоизменения и предложена классификация самих этих моделей. Этот словарь стал основой для разработки компьютерных программ автоматического морфологического анализа, в том числе в информационном поиске, в машинном переводе. Именно этот труд лег в основу алгоритма поиска «Яндекса» и других поисковиков, основанного на морфологическом принципе опознавания слов.

Омонимия — совпадение слов (словоформ) с разным лексическим значением.

Паук (робот-паук) — регулярно обходит документы по заданному маршруту; если сайт на месте, то есть работает и доступен, паук выкачивает запланированные в маршруте документы. Он определяет тип скачанного документа (.html, pdf, swf и т. п.), кодировку и язык, а затем отправляет данные в хранилище.

Псевдооптимизация — попытка обмана поисковой системы и манипулирования ее результатами с целью завышения позиции сайтов (страниц) в результатах поиска; использование SEO-ссылок, которые на коммерческой основе размещаются на сторонних ресурсах (количество ссылок на страницу и их текст учитываются при ранжировании). Спрос на SEO-ссылки стимулирует наводнение Интернета сотнями тысяч бесполезных сайтов, забитых заимствованным или бессмысленным контентом.

Поиск — состоит из двух больших частей: первая — когда поисковик ищет различные документы в Интернете и составляет поисковый индекс; вторая — когда ищется ответ на конкретный запрос пользователя в уже подготовленной поисковой базе. Пользовательские запросы сначала попадают в компьютерную систему «метапоиск», который обрабатывает каждый запрос в реальном времени — выясняет все необходимые данные про запрос (из какого региона он был задан, к какому классу относится и т. п.), проводит лингвистическую обработку; затем метапоиск проверяет, формировались ли в последнее время результаты поиска для этого запроса, потому что результаты поиска по часто задаваемым запросам некоторое время хранятся в памяти метапоиска, а не формируются каждый раз заново; если вновь пришедший запрос оказался популярным, метапоиск покажет пользователю заранее сохраненные результаты. Если же ответа в памяти нет, то метапоиск передает запрос на сервера другой компьютерной системы — «базового поиска». На базовом поиске хранится слепок Интернета, по которому ищет «Яндекс», — поисковая база. Она разбита на части, которые хранятся на разных серверах — искать ответ одновременно по нескольким частям базы данных быстрее, чем по всей базе целиком. Кроме того, у каждого сервера есть несколько копий. Это позволяет распределять нагрузку и не терять данные — если один из серверов не сможет своевременно ответить, информация все равно найдется на дублирующих серверах. Из тысяч серверов базового поиска метапоиск выбирает наименее загруженные — таким образом, чтобы вместе они содержали целую поисковую базу. Каждый из серверов отдает список документов, в которых есть слова из запроса, обратно в метапоиск. Там они объединяются, ранжируются с помощью технологии «Матрикснет» и попадают на страницу результатов поиска. Благодаря такой организации поиска «Яндекс» может отвечать пользователю за доли секунды.

Поисковая база — слепок Интернета, по которому ищет поисковик; поисковый индекс, данные о типе документов, кодировке, языке и сохраненные копии документов вместе составляют поисковую базу; обновляется постоянно, но, чтобы это обновление стало доступно пользователям, ее нужно перенести на «базовый поиск». Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» — раз в несколько дней. Этот процесс создает дополнительную нагрузку на сервера, поэтому производится ночью, когда к «Яндексу» обращается на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.

Поисковый индекс — база данных, по которым ищет поисковая машина; поиск с помощью индекса ускоряет процесс ответа пользователю, как, например, предметный указатель в книге помогает быстрее найти нужное слово; размеры предметного индекса огромны.

Перейти на страницу:

Похожие книги

12 встреч, меняющих судьбу. Практики Мастера
12 встреч, меняющих судьбу. Практики Мастера

Профессиональный психолог и коуч Денис Чернаков впервые делится с читателями самыми современными психологическими технологиями, которые до этой поры были доступны лишь немногим на очень дорогостоящих курсах и тренингах. Эффективность их проверена и доказана тысячами учеников по всему миру. Эти технологии преподаются читателю в виде увлекательного романа. Главный герой, Макс, «случайно» встречается с профессиональным коучем, психологом и узнает в нем своего одноклассника. Они договариваются о работе над жизнью Макса с одним простым правилом: Макс обязан выполнять все задания, что получает, в срок. Герой соглашается, даже не предполагая, что ему предстоит посетить дальние страны, изменить отношения с родными, стать совладельцем фирмы, встретить настоящую любовь и полностью преобразить жизнь… Эта книга поможет изменить отношение к себе и отношения с окружающими, найти свое место в жизни, правильно расставить приоритеты, открыть в себе новые грани и возможности. И помни: у тебя не будет второго шанса прожить жизнь так, как мечтаешь.

Денис Вячеславович Чернаков

Карьера, кадры
100 способов избавиться от комплексов
100 способов избавиться от комплексов

Комплексы… А у кого их нет? Редкий человек может смело заявить, что комплексы не мешают ему жить и радоваться жизни по той простой причине, что их у него просто нет. Зато наверняка каждый знает, что тот или иной вредный комплекс мешает ему в жизни. На комплексы взваливают вину за неудачи и провалы, не пытаясь, однако, бороться с ними. А это обязательно надо сделать, особенно сейчас, когда вы держите в руках это издание. Автор подробно рассматривает все известные комплексы и предлагает свои методы борьбы с ними. Не упустите шанс обрести радость в жизни, пока борьба с комплексами возможна.Хотя в заглавии громко заявлено о ста способах, я полагаю, что это излишняя роскошь, вполне достаточно будет и одного, если он поможет вам почувствовать себя полноценным и уверенным в себе человеком. Поэтому в своей книге я не буду заострять внимание на ста способах избавления от комплексов – лучше подробнее остановлюсь на самих комплексах и причинах, их порождающих. Как избавиться от ста комплексов, что делать, чтобы снова ощутить радость жизни? Что ж, ответ на этот вопрос вы отыщете в книге!Важное замечание: комплексы не появляются на ровном месте, их появление всегда чем-то обусловлено. Поэтому, если вы хотите задушить в себе "дракона", не кидайтесь слепо в бой; вам надо отыскать его логово, понять его природу, только тогда вы сможете победить его! Комплексы можно сравнить с сорняками, вырастающими из семечка… именно эти семена вы должны будете отыскать в себе и избавиться от них! В моей книге в алфавитном порядке представлены причины, приводящие к возникновению комплекса неполноценности у человека. Для того чтобы узнать, как избавиться от своей проблемы, вы должны отыскать "свой" комплекс и прочитать все, что к нему относится. Надеюсь, мои советы помогут вам наладить свою жизнь!

Глеб Иванович Черниговцев

Карьера, кадры / Самосовершенствование / Эзотерика