Читаем Продвижение сайтов с использованием искусственного интеллекта полностью

Теперь в деталях рассмотрим все этапы функционирования поисковых систем – от первоначального сканирования и сбора адресов до финального формирования поисковой выдачи с учетом сотен различных факторов.

Сбор адресов страниц в интернете

Для начала поисковый робот составляет список адресов веб-страниц, по которым впоследствии будет производиться индексация. Изначально разработчики загружают в систему небольшой набор начальных URL, взятых, к примеру, из какого-либо каталога сайтов. Далее робот анализирует содержимое каждой страницы в этом списке, извлекает все гиперссылки и пополняет первоначальный пул адресов. Таким образом, за счет переходов по ссылкам список адресов быстро разрастается до миллиардов.

Однако страницы, на которые нет ни одной внешней ссылки, не могут самостоятельно оказаться в индексе поисковика. Хотя со временем робот может и добраться до них, это произойдет не скоро. Владелец сайта при желании может вручную добавить новые URL в базу поисковой системы.

Выкачивание страниц

Для дальнейшей работы с текстом веб-страниц необходимо получить их содержимое. Этим занимается специальный поисковый робот, называемый пауком (crawler) или сканером. Он обращается по очереди к каждому адресу, сформированному на предыдущем этапе, выкачивает контент страниц и передает на последующую обработку. Так накапливаются огромные объемы текстовых данных.

Индексация

Далее приступает к работе индексный робот, который строит поисковый индекс на основе выкачанных данных. Он извлекает из текстов все слова, располагает их в алфавитном порядке вместе с номерами страниц и служебной информацией. Для этого система последовательно разбирает каждый документ, нумерует страницы, очищает текст от ненужных элементов вроде HTML-разметки, вычленяет отдельные слова и помещает их в индекс с указанием исходных страниц. Так формируется огромная база данных, позволяющая в дальнейшем мгновенно находить нужную информацию по запросу пользователя.

Поиск

Когда пользователь вводит запрос, поисковик обращается к индексу, находит в нем указанные ключевые слова и извлекает списки страниц, где они встречаются. Если в запросе несколько слов, система сравнивает списки для каждого из них и оставляет лишь URL, присутствующие во всех этих списках – то есть те страницы, где встречаются сразу все слова. В результатах поиска отображаются название страницы, дата ее создания, адрес и цитата из текста с подсвеченными искомыми словами.

Для более детального понимания рассмотрим систему фильтрации, через которую проходят обрабатываемые страницы.

Начальная фильтрация

На входной стадии в распоряжении поисковика находятся триллионы адресов веб-страниц. Разумеется, реального полезного контента там значительно меньше – основную долю составляют дубли, неработающие или устаревшие ссылки и прочий «информационный мусор». Из этого пула отсеиваются сотни миллиардов более или менее адекватных адресов для последующего анализа их содержимого. Среди них есть как популярные и востребованные страницы, так и практически неизвестные широкой аудитории.

Далее эти отобранные сотни миллиардов документов выкачиваются и фильтруются еще раз – удаляются дубли, служебные файлы, поисковый спам. Остаются десятки миллиардов URL, которые затем индексируются: разбираются на слова и заносятся в базу данных поисковой системы.

Фильтрация при поиске

Следующие этапы фильтрации происходят уже после получения конкретного поискового запроса от пользователя. Суть этого этапа – найти подходящие документы-кандидаты и упорядочить их по степени релевантности запросу, то есть выполнить ранжирование. Оно происходит в два приема:

1. Черновое ранжирование: система получает из индекса списки документов со словами запроса. Это сотни тысяч или миллионы URL.

2. Чистовое ранжирование: извлекаются дополнительные характеристики каждой страницы, и специальный алгоритм вычисляет их итоговые позиции в поисковой выдаче.

В итоге остается лишь несколько тысяч наиболее подходящих документов, готовых к выводу в виде результатов поиска. Однако на этом процесс не заканчивается. Далее происходит финальное формирование выдачи: дополнительная сортировка, добавление данных из узкоспециализированных вертикальных поисковиков, подбор цитат со словами запроса.

Итак, мы подробно разобрали, как именно функционирует поисковая машина, из каких этапов складывается сложный процесс обработки огромного количества данных и формирования максимально релевантной пользовательскому запросу выдачи.

Искусственный интеллект – основа современного поиска

Функционирование современных поисковых систем почти полностью зависит от технологий искусственного интеллекта. Понимание принципов работы искусственного интеллекта в поисковиках позволит оптимизировать ваш сайт для лучшего ранжирования в выдаче.

Перейти на страницу:

Похожие книги

С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Внедрение SAP R/3: Руководство для менеджеров и инженеров
Внедрение SAP R/3: Руководство для менеджеров и инженеров

Это практическое всеобъемлющие руководство было написано специально для тех, кто выбирает стратегию внедрения SAP в организации. «Внедрение SAP R/3: руководство для менеджеров и инженеров» объясняет, что означает понятие «эпоха ERP», почему информация является одним из ключевых ресурсов предприятия, как SAP способствует росту конкурентоспособности компании, а также преимущества методологии ASAP в планировании и использовании ресурсов при внедрении SAP. Подход к ERP-системам, используемый в данной книге, будет крайне полезен менеджерам и специалистам, которым необходимо представить высшему руководству своих компаний основания для внедрения SAP; кроме того, данная книга будет весьма полезной тем, кто занимается проектами SAP или планирует такой проект в ближайшем будущем. Для тех читателей, кто непосредственно занят в проектах SAP, эта книга станет надежным руководством и поможет внести существенный вклад в развитие проекта.

Вивек Кале

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Домашний компьютер
Домашний компьютер

Сегодня персональный компьютер (ПК) стал таким же естественным предметом бытовой техники в домах и квартирах, как телевизор, микроволновая печь, стиральная машина и т. д. Всем известно, что ПК имеют разную конфигурацию и комплектующие. Это влияет на стоимость модели. Многие из нас покупают «умную машину», особенно не задумываясь, так ли нужны те опции, которыми оборудовал ПК изготовитель?! Вы готовы платить деньги за воздух?Эта книга о том, как сэкономить собственные средства и выбрать по-настоящему ПЕРСОНАЛЬНЫЙ компьютер, который оправдает ожидания всех домочадцев без исключения. С ее помощью вы научитесь виртуозно владеть необходимыми компьютерными программами и разбираться во всех технических нюансах. Теперь для вас не составит труда обнаружить и устранить поломку в ПК и любой «глюк».Издание будет интересно и полезно как «чайникам», так и спецам.

Роман Кравцов

Программирование, программы, базы данных / Программирование / Прочая компьютерная литература / Книги по IT