Без темы
<<  Фармацевтический вестник Формы правления  >>
Фильтрация порнографии в поисковой выдаче
Фильтрация порнографии в поисковой выдаче
А в чем проблема
А в чем проблема
И вдруг
И вдруг
Фильтрация порнографии в поисковой выдаче
Фильтрация порнографии в поисковой выдаче
Что делать
Что делать
Источники данных
Источники данных
Текстовая классификация
Текстовая классификация
Недостатки подхода
Недостатки подхода
Примеры ошибок классификатора
Примеры ошибок классификатора
Трудные случаи
Трудные случаи
Трудные случаи
Трудные случаи
Результаты текстовой классификации
Результаты текстовой классификации
Добавляем данных
Добавляем данных
Машинное обучение
Машинное обучение
Что получилось
Что получилось
Классификация запросов
Классификация запросов
Что пробовали
Что пробовали
Необходимые словари
Необходимые словари
Как происходит классификация
Как происходит классификация
Результаты
Результаты
Оставшиеся проблемы
Оставшиеся проблемы
Спасибо
Спасибо

Презентация: «Фильтрация порнографии в поисковой выдаче». Автор: . Файл: «Фильтрация порнографии в поисковой выдаче.ppt». Размер zip-архива: 2163 КБ.

Фильтрация порнографии в поисковой выдаче

содержание презентации «Фильтрация порнографии в поисковой выдаче.ppt»
СлайдТекст
1 Фильтрация порнографии в поисковой выдаче

Фильтрация порнографии в поисковой выдаче

2 А в чем проблема

А в чем проблема

3 И вдруг

И вдруг

..

4 Фильтрация порнографии в поисковой выдаче
5 Что делать

Что делать

Классифиция документов Нужно выделить набор характеристик, которые отличали бы порносайт от обычного Порносайты не маскируются, и это хорошо Много документов в “серой” зоне Классификация запросов Запросы короткие и зачастую имеют несколько смыслов Некоторые из них содержат опечатки

6 Источники данных

Источники данных

Неразмеченные html-страницы в индексе Логи запросов с данными о переходах на страницы Переформулировки запросов Внешние каталоги: общие (list.mail.ru, liveinternet.ru/rating) и специальные (orgazmo.ru, nulist.biz).

7 Текстовая классификация

Текстовая классификация

Первое приближение: наивный Байесовский классификатор Документ рассматривается как набор независимых слов По обучающему множеству составляются словари с весами Находим слова классифицируемого документа в словарях и смотрим, вес слов какого класса больше

8 Недостатки подхода

Недостатки подхода

Не учитываем разметку документа, хотя она может быть важна. Слова в некоторых частях документа (title, url, keywords, a href) более значимы Тяжело составить правильное обучающее множество. Оно должно быть: Полным (иначе будем часто встречаться с проблемой «нулевой частоты») Сбалансированным (должны быть представлены разные темы: рассказы, фото/видео хостинги, сайты знакомств и т. п.) Точным

9 Примеры ошибок классификатора

Примеры ошибок классификатора

Фазиль Искандер «Рассказы о Чике». Много слов, неизвестных классификатору Некоторое количество слов, употребляемых на порносайтах (top в списке справа) Результат — документ попал в «серую» зону.

Толстенькими 5.33898 поскуливала 4.89884 дырочках 4.69508 зрелые 4.62396 всовывал 4.56707 жесткое 4.45139 отсосав 4.40743 раздвигал 4.37484 юбкой 4.3215 лизала 4.2573 кончала 4.17881 чулках 4.16239 щекотали 4.13878 всунув 4.1025 пахучую 4.06708 задвигалась 4.0397 блаженном 3.99227 упругую 3.9481 аппетитную 3.92286 глотала 3.90956 извивалась 3.88 покачивались 3.85739 оттопырила 3.8235 бритую 3.81365

10 Трудные случаи

Трудные случаи

Мало текста Текст является навигационной обвязкой Текст не имеет отношения к картинкам На странице только картинка

11 Трудные случаи

Трудные случаи

Порнотизеры Часто занимают большую часть страницы Сильно привлекают внимание В html-коде выглядят как часть скрипта, запрос к соответствующей тизерной сети: <script src="http://camo4ek.net/effect.php?informer=101" type="text/javascript"> </script>

12 Результаты текстовой классификации

Результаты текстовой классификации

Граница

Точность

Полнота

F1-мера

-0.6

80.96

99.15

89.14

-0.7

83.39

96.78

89.59

-0.8

87.54

93.01

90.19

-0.9

92.73

88.15

90.38

-1.0

95.50

78.85

86.38

13 Добавляем данных

Добавляем данных

Порносайты часто имеют URL, содержащий определенные подстроки (xxx, porno, adult, sex, erotic) Заголовок и ключевые слова будем обрабатывать по-другому (посчитаем встреченное количество слов из порнословаря) Крупных тизерных сетей, отдающих порно, не так много, будем искать обращения к ним в коде страницы Будем считать количества переходов на страницу по порнозапросам: раз пользователи ходят на сайт за порнографией, наверное, она там есть.

14 Машинное обучение

Машинное обучение

В качетстве алгоритма использовался AdditiveGroves (каскады деревьев решений) Обучали на небольшом, но точном наборе документов (около 8 тыс.) При нахождении ошибок классификации: Выделяем свойство, которое плохо распознается Находим примеры, добавляем в обучающее множество Переобучаемся Проверяем маркерным тестом, что ничего не «отъехало»

15 Что получилось

Что получилось

Характеристики документа, по степени значимости bayes 2.05685 porn_clicks 0.8613 keywords 0.7252 title 0.1173 url 0.1018 img_num 0.028 script_num 0.017 teasers 0.00013 Точность — 98.3, полнота — 95.5 и F1 — 96.5

16 Классификация запросов

Классификация запросов

Фильтрация порнографии по обычным запросам (мультфильмы, рассказы, видео, фото) По неявным «взрослым» запросам (азиатки, мама и сын, девушка с конем) Показываем всё, как есть по порно запросам (эротика, порно смотреть онлайн, проститутки в москве) по навигационным и точно попадающим в тему запросам (саша грей видео, redtube, gexx.com)

17 Что пробовали

Что пробовали

Составлять большие списки «плохих» и «хороших» запросов. Слишком много форм (порно, порнушечка, порево, порноонлайн) Все меняется – тяжело поддерживать Морфология часто мешает (вафли ? вафлить) Составлять короткие списки регулярных выражений Потеряли из саджестов чЕБурашку, аЭРОфлот, оПОРНый прыжок Смотреть на переформулировки видео ? порно онлайн, youtube, эровидео, sex видео Смотреть на выдачу По запросам мулатки, малолетки, бесплатное видео около 80% страниц из выдачи определялись как порнография

18 Необходимые словари

Необходимые словари

Выдача дает много информации о запросе, но Словарь «запрос — процент порнодокументов» строится оффлайн и содержит не все возможные запросы. Составляем небольшой словарь (около 200 вхождений) регулярных выражений (плохая полнота, но хорошая точность). Этот же словарь используется при классификации документов. Составляем словарь «эвфемизмов» — обычных слов, в некотором контексте придающих запросу порносмысл ( девочки, секретарши, бесплатно, зрелые )

19 Как происходит классификация

Как происходит классификация

Ищем, соответствует ли запрос выражениям из ручного «черного» списка (если да, запрос порнографичен). Если нет, ищем его в автоматически составленном словаре, проверяя, сколько документов из выдачи порнографические. Если меньше некоторого порога, запрос чист. Если больше — удаляем из запроса все «эвфемизмы» и проверяем (также по выдаче) оставшуюся часть запроса. Пример: redtube видео

20 Результаты

Результаты

Точность 96%, полнота 85%. Ошибки Наличие слова порно не всегда говорит о «взрослом» запросе (Зак и Мири снимают порно, незаконное распространение порнографии) Не всегда по навигационным запросам в выдаче много порно

На графике — процент порнозапросов в потоке. Красная линия — то, что нашлось по списку. (будни 4.5%, выходные 5.5%) Зеленая — по выдаче (0.7%)

21 Оставшиеся проблемы

Оставшиеся проблемы

Картиночный поиск Сейчас пользуется классификатором веба Есть страницы, не попадающие под выбранные характеристики порностраниц, но имеющие порнокартинки Фильтрация запросов в саджестах и переформулировках Более жесткие требования Плохие запросы с ошибками не ловятся словарями, но накликиваются пользователями

22 Спасибо

Спасибо

Вопросы?

Татьяна Романова t.romanova@corp.mail.ru

«Фильтрация порнографии в поисковой выдаче»
http://900igr.net/prezentacija/ekonomika/filtratsija-pornografii-v-poiskovoj-vydache-111774.html
cсылка на страницу
Урок

Экономика

125 тем
Слайды
900igr.net > Презентации по экономике > Без темы > Фильтрация порнографии в поисковой выдаче