Читаем Яндекс для всех полностью

Таким образом Спамооборона не является "жестким", с раз и навсегда заданными правилами, продуктом, защищающим почту от спама. Алгоритм работы этой системы настраивается на предпочтения пользователя. В то же время система является обучаемой, а в качестве "учебного материала" для нее служит постоянно обновляемая база знаний, пополняемая за счет непрерывного анализа приходящих на Яндекс. Почту сообщений. Спамооборона учится и за счет нас, пользователей. Это происходит в силу наличия обратной связи — вспомните, в интерфейсе почтового ящика есть кнопки Это спам! и Это не спам. Безусловно, для одних сообщение может считаться спамом, для других — нет, поэтому в системе для принятия общего решения ведется анализ количества сигналов и того, и другого рода.

Помимо обучения всей системы, Спамооборона умеет подстраиваться и под конкретного пользователя Яндекс. Почты — она корректирует "белые" списки по данным обратной связи и по списку корреспондентов, которым пользователь отправляет письма.

Основные элементы Спамообороны

Спамооборона состоит из нескольких частей:

□ парсера, который разбирает письмо на элементы и собирает статистику;

□ анализирующего модуля, применяющего правила и вычисляющего "спамовый вес" каждого сообщения;

□ базы знаний, на основе которой работают правила.

Исходной информацией, с которой работает Спамооборона, является совокупность всех данных, относящихся к каждому сообщению. Это и данные почтовых серверов (IP-адреса, служебная информация), и заголовки писем, и тексты, включающие как "чистые", так и "грязные" элементы, вложения, подписи, адреса отправителей и т. п. Анализируется и сам текст письма — количество несловарных слов, скрытой информации. Системе пришлось обучаться и на письмах спамеров, которые сознательно коверкали русский язык, надеясь таким образом пробить оборону и донести свои письма до ящиков адресатов.

На первом этапе обработки письма в дело вступает парсер, который разделяет письмо на "чистую", воспринимаемую человеком, составляющую, и "грязную", "шумовую", составляющую, которая может содержать и невидимый для пользователя текст, и бессмысленные данные.

Одновременно с этим происходит анализ технической информации о письме — проверяется достоверность информации об отправителе, анализируется подлинность заголовков письма, учитываются особенности настройки сетей и почтовых систем отправителей. Поставщиком данных для системы правил является обновляемая база знаний, которая включает данные RBL, шинглы и наборы эвристик.

Пояснения

Шингл — это специальным образом рассчитываемая метрика письма, позволяющая выявлять массовые рассылки. Алгоритм расчета шинглов основан на определении уникальных характеристик схожих сообщений.

RBL (Realtime Blackhole List) — это список IP-адресов открытых почтовых релеев, прокси-серверов и неадминистрируемых сетей, с которых рассылается спам. Яндекс поддерживает собственный RBL.

Анализирующий модуль отслеживает в письме признаки, которые описаны в правилах. Правила пишутся на некотором внутреннем языке, который позволяет учесть любое свойство и признак письма. Правила описывают известные признаки и спама, и, наоборот, "хороших" писем, при этом каждому правилу приписан определенный вес. Если суммарный вес сработавших правил выше некоторого порога, письмо считается спамом. Правила можно модифицировать и добавлять без изменения самой программы, что позволяет их оперативно корректировать, а база знаний (статистики массовости писем и вложений, "черные" списки) обновляется постоянно.

Каждое правило при срабатывании добавляет к "весу" письма определенное количество баллов (весовой коэффициент), как положительный, так и отрицательный. Любое из этих правил само по себе не является достаточным для принятия определенного решения — только совокупность их может с достаточной степенью уверенности сказать, относится ли письмо к спаму или нет. И если суммарный положительный вес сработавших правил превышает порог, определенный параметрами настройки системы, письмо маркируется как спам.

Перейти на страницу:

Похожие книги

Недокументированные и малоизвестные возможности Windows XP
Недокументированные и малоизвестные возможности Windows XP

Книга содержит подробные сведения о таких недокументированных или малоизвестных возможностях Windows XP, как принципы работы с программами rundll32.exe и regsvr32.exe, написание скриптов сервера сценариев Windows и создание INF-файлов. Р' ней приведено описание оснасток, изложены принципы работы с консолью управления mmc.exe и параметрами реестра, которые изменяются с ее помощью. Кроме того, рассмотрено большое количество средств, позволяющих выполнить тонкую настройку Windows XP.Эта книга предназначена для опытных пользователей и администраторов, которым интересно узнать о нестандартных возможностях Windows. Тем более что довольно часто эти возможности позволяют обойти ограничения на те или иные функции Windows, установленные администратором. Р

Роман Александрович Клименко

ОС и Сети, интернет / ОС и Сети / Книги по IT
Веб-аналитика: анализ информации о посетителях веб-сайтов
Веб-аналитика: анализ информации о посетителях веб-сайтов

Компании в веб-пространстве тратят колоссальные средства на веб-аналитику и оптимизацию своих веб-сайтов, которые, в свою очередь, приносят миллиарды долларов дохода. Если вы аналитик или работаете с веб-данными, то эта книга ознакомит вас с новейшими точками зрения на веб-аналитику и то, как с ее помощью сделать вашу компанию весьма успешной в веб. Вы изучите инструментальные средства и показатели, которые можно использовать, но что важнее всего, эта книга ознакомит вас с новыми многочисленными точками зрения на веб-аналитику. Книга содержит много советов, приемов, идей и рекомендаций, которые вы можете взять на вооружение. Изучение веб-аналитики по этой уникальной книге позволит познакомиться с проблемами и возможностями ее современной концепции. Написанная практиком, книга охватывает определения и теории, проливающие свет на сложившееся мнение об этой области, а также предоставляет поэтапное руководство по реализации успешной стратегии веб-аналитики.Эксперт в данной области Авинаш Кошик в присущем ему блестящем стиле разоблачает укоренившиеся мифы и ведет по пути к получению действенного понимания аналитики. Узнайте, как отойти от анализа посещаемости сайта, почему основное внимание следует уделять качественным данным, каковы методы обретения лучшего понимания, которое поможет выработать мировоззрение, ориентированное на мнение клиента, без необходимости жертвовать интересами компании.- Изучите все преимущества и недостатки методов сбора данных.- Выясните, как перестать подсчитывать количество просмотренных страниц, получить лучшее представление о своих клиентах.- Научитесь определять ценность показателей при помощи тройной проверки "Ну и что".- Оптимизируйте организационную структуру и выберите правильный инструмент аналитики.- Изучите и примените передовые аналитические концепции, включая анализ SEM/PPC, сегментацию, показатели переходов и др.- Используйте решения с быстрым началом для блогов и электронной торговли, а также веб-сайтов мелкого бизнеса.- Изучите ключевые компоненты платформы экспериментирования и проверки.- Используйте анализ конкурентной разведки для обретения понимания и принятия мер.Здесь также находятся:- Десять шагов по улучшению веб-аналитики.- Семь шагов по созданию управляемой данными культуры в организации.- Шесть способов замера успеха блога.- Три секрета создания эффективной веб-аналитики.- Десять признаков великого веб-аналитика.

Авинаш Кошик

ОС и Сети, интернет