Ситуация с топ-5 интересна сама по себе. Если в обычной новостной выдаче вы встретите десятки заголовков по одному конкретному запросу и сможете выбрать подходящий, то первая страница вам такого выбора не предоставляет, новостной посыл отображен в нескольких словах. А все понимают, насколько могут различаться оценочные заголовки одного и того же события: от «Евросоюз отказался вводить санкции» до «Евросоюз отложил введение санкций», от «Путин популярен у 70% россиян» до «30% россиян не любят Путина». «Яндекс» уверяет, что название статьи робот выбирает случайно: «Автоматический топ-5 новостей на главной странице является неотъемлемой частью автоматического агрегатора новостей».
Мы перечислили эмпирические претензии к поисковой выдаче «Яндекса», которые во многом можно объяснить субъективным восприятием либо подгонкой задачи под ответ. Позволим себе конкретизировать претензии и вступим в заочную полемику с представителями поисковика.
За спиной каждого программиста контролера не поставишь
Фото: ИТАР-ТАСС
Как обмануть робота
«Яндекс» — частная компания, бизнес которой построен на беспристрастности и роботизированности поисковой выдачи. «Яндекс» не обязан следить за тем, какие ресурсы находит робот и какие политические взгляды эти ресурсы отражают. Это основной аргумент как работников компании, так и сторонников полной независимости поисковиков от государства.
«Яндекс.Новости» ежесекундно имеют дело с сотнями различных интернет-ресурсов. Порядок их выдачи по запросу определяется сочетанием нескольких условий, официально заявленных компанией: «Роботизированный алгоритм для ранжирования новостей включает в себя: принадлежность первоисточнику, оперативность, цитируемость, информативность». То есть недостаточно просто первым выложить какую-то новость, чтобы оказаться на главной странице поисковой выдачи, — твой ресурс должен быть популярным, проверенным, авторитетным, цитируемым. Возникает вопрос: как при достаточно суровых условиях пробиваются (и закрепляются на годы!) мелкие ресурсы, в том числе украинские или грузинские, небольшие пропагандистские сайты с низкой посещаемостью?
В апреле 2014 года журналисты провели мониторинг поисковой выдачи «Яндекса». Были просмотрены только первые 200 ресурсов по количеству переходов на них с анонсов службы, согласно статистике LiveInternet.ru. Оказалось, что у большинства изданий значительную долю посещаемости (часто более 50%, а нередко и 70%) составляют переходы именно из службы «Яндекс.Новостей». В отношении 51 ресурса можно сказать определенно, что в их выходных данных нет информации о регистрации в качестве СМИ. Исследователи делают вывод: «“Яндекс”, обладая монопольным положением на рынке поиска в России, создает иную медийную реальность, формируя новостные сюжеты из сообщений ресурсов, большинство из которых СМИ не являются».
«Яндекс» отвечает: «В выдаче “Яндекс.Новостей” появляются все источники, подключенные к сервису. Надеемся, вы не рекомендуете “давить” маленькие проекты и отдавать предпочтение большим или избранным».
После другого исследования — газеты «Труд» в отношении заголовков «Яндекса» — у сайта этого СМИ, по заявлениям работников, начались проблемы: они исчезли из поисковой выдачи. Их статьи либо совсем не появлялись на релевантные запросы, либо находились в конце списка. Тогда историю удалось замять, но спустя пять лет схожий сценарий изложил владелец медиапортала Pravda.ru Владимир Горшенин : «Проблемы у нашего портала начались давно — мы практически не попадали в поисковую выдачу “Яндекс.Новостей”. Я писал письма в компанию, но ситуация не менялась. Последней каплей стала ситуация с резонансной статьей американского сенатора Джона Маккейна, которую он написал эксклюзивно для нашего сайта в феврале этого года. Оказалось, что поиск “Яндекса” приводил читателя на дубликат этой статьи, перепечатанной какой-то татарской газетой. Мы, как первоисточник, не получили ни одного перехода от поисковика. И после этого прервали всякое сотрудничество с компанией “Яндекс”».
Каким образом популярный сайт не индексируется поисковой машиной? Как уникальное интервью не появляется в первых строках поиска, а дается лишь через ссылку на стороннем ресурсе? Почему многие авторитетные издания никогда не встретишь в списке первых адресатов выдачи?
Некоторые эксперты убеждены, что имеет место вмешательство сотрудников «Яндекса» в работу поисковых роботов. Тем более что для этого есть и техническая возможность, и практическая необходимость.
Любые алгоритмы выдают не более 95% качества работы, говорят специалисты. Остальное просто необходимо корректировать вручную. Это касается и борьбы со спамом, с нецензурными заголовками (вариации «русского матерного» безграничны и роботу неподвластны), с коммерческими манипуляциями, когда одну и ту же новость переписывают, чтобы снова и снова попадать в поисковую выдачу и зарабатывать рекламные деньги. То есть условно в 5% случаев поисковик просто обязан использовать ручной труд для корректировки поисковой выдачи.