Электронная почта
<<  HDMI Выявление спам сайтов на основе анализа контента страниц  >>
Распределенные системы обнаружения спама
Распределенные системы обнаружения спама
Определения
Определения
Популярные способы обнаружения спама
Популярные способы обнаружения спама
Свойства спам-рассылок
Свойства спам-рассылок
Свойства спам-рассылок (2)
Свойства спам-рассылок (2)
Распределенные антиспам-системы
Распределенные антиспам-системы
Методы сбора данных
Методы сбора данных
Системы с ловушками почты
Системы с ловушками почты
Голосование пользователей
Голосование пользователей
Razor/SpamNet
Razor/SpamNet
Анализ всей транзитной почты
Анализ всей транзитной почты
Система DCC
Система DCC
Возможности компрометации
Возможности компрометации
Проблемы распределенных систем
Проблемы распределенных систем
Пути развития распределенных систем
Пути развития распределенных систем
Спасибо за внимание
Спасибо за внимание

Презентация: «Распределенные системы обнаружения спама». Автор: Alex Tutubalin. Файл: «Распределенные системы обнаружения спама.ppt». Размер zip-архива: 120 КБ.

Распределенные системы обнаружения спама

содержание презентации «Распределенные системы обнаружения спама.ppt»
СлайдТекст
1 Распределенные системы обнаружения спама

Распределенные системы обнаружения спама

Существующие решения и перспективы Алексей Тутубалин ЗАО «Ашманов и Партнеры»

2 Определения

Определения

Спам (спам-рассылка) – массовая анонимная незапрошенная рассылка электронной почты Легальная рассылка - рассылка электронной почты, произведенная по запросу ее получателей Обычная (легальная) электронная почта - обмен не массовыми сообщениями между пользователями и/или автоматическими системами Обнаружение спама – синоним для «борьбы со спамом»

3 Популярные способы обнаружения спама

Популярные способы обнаружения спама

Черные списки IP-адресов (RBL и ведущиеся вручную) Анализ технической информации сообщения Анализ тела сообщения (контентный анализ) методами лингвистики, либо статистики Системы с квитированием Отказ (частичный отказ) от E-mail Большинство методов рассматривают сообщение отдельно от общего контекста. Накопление данных если и ведется, то локально - в рамках одного списка либо почтовой системы

4 Свойства спам-рассылок

Свойства спам-рассылок

Распределенность - рассылки производятся со многих IP-адресов «Персонализация» - каждое отдельное сообщение уникально Мимикрия – техническая информация максимально похожа на легальную

5 Свойства спам-рассылок (2)

Свойства спам-рассылок (2)

Сообщения содержат рекламу от заказчика рассылки и не могут содержать слишком много другого текста Сообщения должны быть читаемы получателем без напряжения Уникальность сообщений обеспечивается машинным путем, сообщения в одной рассылке похожи друг на друга

6 Распределенные антиспам-системы

Распределенные антиспам-системы

Сбор информации о происходящих сейчас рассылках из максимально-возможного количества точек в сети Быстрая централизованная или распределенная обработка Максимально быстрая доступность информации об идущих рассылках Имеющиеся на сегодня системы принципиально отличаются методами сбора данных, остальные их свойства похожи.

7 Методы сбора данных

Методы сбора данных

Ловушки (honeypots) – E-mail адреса, предназначенные только для приема спама Голосование пользователей Анализ всей проходящей почты Каждый из методов используют 1-2 лидера в данной области. Системы небольшого размера неэффективны и не выживают (исключение – антиспам-системы на крупных почтовых сервисах, таких как Яndex.Почта, Mail.RU и т.д)

8 Системы с ловушками почты

Системы с ловушками почты

Сбор спама в заранее созданные и «засвеченные» (известные спамерам) почтовые ящики. Обработка – составление сигнатур, образцов спама и т.п. Передача результатов обработки пользователям для использования при анализе почты. Два лидера: BrightMail и MessageLabs; сети с похожими характеристиками (около 1 млн. адресов для сбора, похожие методы обработки сообщений).

9 Голосование пользователей

Голосование пользователей

Почтовая система рассчитывает сигнатуру принятого письма, передает ее на сервер системы, получает ответ – спам это или нет. Пользователь, получивший спам, может проголосовать «против» него (передав сигнатуру сообщения на сервер). Сигнатура, получившая много голосов, считается спамом, все сообщения с такой сигнатурой – тоже спам. Лидер: Razor/SpamNet (Cloudmark). Альтернативная система Pyzor – не развивается и не имеет большого охвата

10 Razor/SpamNet

Razor/SpamNet

Бесплатное ПО для UNIX и бесплатное право на его использование Платная подписка для Windows-клиентов (серверное и клиентское ПО) ~600000 голосующих пользователей ~100 млн. обрабатываемых сообщений в сутки Рейтинги доверия к голосующим клиентам Уровень обнаружения российского спама невысок – порядка 10%, что объясняется малой распространенностью метода в Рунете, соответственно малым числом голосов.

11 Анализ всей транзитной почты

Анализ всей транзитной почты

Подсчет сигнатур для всех сообщений Передача сигнатур на сервер системы, получение в ответ данных о частотности Частотные сообщения считаются массовой рассылкой Невозможно отличить легальные рассылки от спама – необходимы белые списки принимаемых легальных рассылок

12 Система DCC

Система DCC

Распределенная система сбора статистики по почте Обрабатывается вся транзитная почта Бесплатное ПО в открытых кодах ~40 млн. «уникальных» сообщений в сутки (с учетом повторяемости – порядка 100 млн.) Дополнительный механизм голосований, похожий на Razor/SpamNet Уровень обнаружения российского спама – около 25% при отсутствии ложных срабатываний (по тестам автора доклада).

13 Возможности компрометации

Возможности компрометации

Ухудшение качества работы. Может быть результатом «персонализации» спама Может быть результатом не попадания спама в систему сбора. Увеличение доли ложных срабатываний Может быть результатом попадания в систему сбора сообщений, которые не являются спамом. Потенциально возможно для всех распределенных систем.

14 Проблемы распределенных систем

Проблемы распределенных систем

«Персонализация» спама – добавление мусора, HTML-трюки и т.п. Пути решения – использование аппарата поиска схожих текстов, возможно с выделением частотных, либо словарных слов. Ложные срабатывания Пути решения – создание белых списков легальных массовых рассылок, возможно – массовое внедрение авторизации при проведении легальных рассылок

15 Пути развития распределенных систем

Пути развития распределенных систем

Распределенные системы анализа спама накапливают огромный объем данных, которые могут быть использованы для: Автоматического построения черных списков IP-адресов Анализ активности отдельных машин, рассылающих спам. Построение spam-patterns Анализ вариаций текста внутри одной рассылки Оборотная сторона – потенциальная возможность использования накапливаемых данных во вред. Чтобы этого избежать, данные о персональной не-массовой почте накапливаться не должны.

16 Спасибо за внимание

Спасибо за внимание

Пожалуйста задавайте вопросы

«Распределенные системы обнаружения спама»
http://900igr.net/prezentacija/informatika/raspredelennye-sistemy-obnaruzhenija-spama-195293.html
cсылка на страницу
Урок

Информатика

130 тем
Слайды
900igr.net > Презентации по информатике > Электронная почта > Распределенные системы обнаружения спама