1 / 35

Дмитрий Соловьев Евгений Чернов

Выявление спам сайтов на основе анализа контента страниц. Дмитрий Соловьев Евгений Чернов. Что мы хотим получить?. Уменьшение количества поискового спама в выдаче поиска mail.ru. www.mail.ru. 2. 2. Зачем ?. Так как спам: генерирует огромное количество мусорного контента;

Download Presentation

Дмитрий Соловьев Евгений Чернов

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Выявление спам сайтов на основе анализа контента страниц Дмитрий Соловьев Евгений Чернов

  2. Что мы хотим получить? Уменьшение количества поискового спама в выдаче поиска mail.ru www.mail.ru 2 2

  3. Зачем ? Так как спам: • генерирует огромное количество мусорного контента; • затрудняет эффективную работу поисковых серверов; • ухудшает ранжирование хороших интернет-ресурсов и релевантность результатов; • как следствие, приводит к уходу пользователей. www.mail.ru 3 3

  4. Методы воздействия на поисковый механизм: • Перенасыщение заголовков ключевыми словами. • Перенасыщение текстов ключевыми словами. • Оптимизация текстов под одно ключевое слово. • Оптимизация текстов под большое количество ключевых слов. • Оптимизация анкоров ссылок под ключевые слова. • Активный обмен ссылками. • Фермы ссылок. ... www.mail.ru 4 4

  5. Классификация воздействий на поисковый механизм Воздействие при помощи оптимизации контента страницы. Воздействие при помощи оптимизации ссылок. Воздействие на поведенческие факторы. … Вопрос: Разработка в каком направлении даст лучшие результаты? www.mail.ru 5 5

  6. В 2006 году в рамках материалов конференции IW3C2 была опубликована статья: «Выявление спам-страниц через анализ контента» («Detecting Spam Web Pages through Content Analysis”. A. Ntoulas и коллектив авторов). В статье показано, что 86% спама можно вычислить на основе анализа контента страниц. Разработка в направлении детекции контекстного спама даст лучший профит. www.mail.ru 6 6

  7. Для генерации текстов можно использовать: Марковские цепи, обученные на больших объёмах текстов. Заимствование существующих текстов и случайные вставки ключевых слов внутрь существующих текстов. Замена слов в существующих текстах на синонимы. www.mail.ru 7 7

  8. Например: Если для генерации текста использовать Марковскую модель N-го порядка, то, что бы выявить искусственность этого текста, потребуется строить модели порядка N+1. «Самым интересным для меня узнать, как называются воды, омывающие остров Рюген» Модель 2-го порядка Модель 3 -го порядка интересным → для → [меня] P=0.0020 интересным → для → меня → [было] P=0.0009 для → меня → [узнать] P=0.0019 для → меня → было → [узнать] P=0.0008 меня →узнать → [,] P=0.0018 меня →было → узнать → [,] P=0.0007 узнать → , → [как] P=0.0018 было → узнать → , → [как] P=0.0007 для → меня → [было] P=0.0001 важно → для → меня → [узнать] P=0.0004 меня → было → не → [узнать] P=0.0004 меня → было → [узнать] P=0.0001 www.mail.ru 8 8

  9. Нам интересны более простые методы выявления искусственности страниц. Достаточно просто поддерживать в актуальном состоянии. Использовать для классификации спама с высокой точностью. www.mail.ru 9 9

  10. Рассмотрим проблему обнаружения спам страниц как задачу бинарной классификации. 1 — спам 0 — не спам Требуется: 1. Определить пространство признаков. 2. Определиться с методом классификации. www.mail.ru 10 10

  11. Качество классификации напрямую зависит от качества признаков описывающих пространство. Линейно неразделимые признаки. Линейно разделимые признаки Выделение небольшого количества хорошо разделимых признаков позволит нам решить задачу классификации с большей эффективностью. www.mail.ru 11 11

  12. Распределение количества слов на странице в спамовых и неспамовых множествах www.mail.ru 12 12

  13. Распределение количества слов в заголовке страниц в спамовых и неспамовых множествах. www.mail.ru 13 13

  14. Распределение средней длины слова в спамовых и неспамовых множествах www.mail.ru 14

  15. Количество слов в анкорах ссылок для спамовых и неспамовых множеств www.mail.ru 15

  16. Степень сжатия документов в спамовых и неспамовых множествах www.mail.ru 16

  17. Сравнивая приведенные данные с ранними исследованиями, приходим к выводу, что спам подвергается мутациям, в сторону обычных страниц. Хотя, в распределениях все еще присутствует явная «искусственность». www.mail.ru 17

  18. Распределение усредненного веса ключевых слов для спам- и обычных страниц Усредненное значение веса ключевых слов документа: вес ключевого слова количество ключевых слов www.mail.ru 18

  19. Распределение отношения веса значимых ключевых слов к общему количеству слов в спамовых и неспамовых множествах Усредненное значение веса значимых ключевых слов документа: вес ключевого слова количество ключевых слов количество значимых слов www.mail.ru 19

  20. Распределение вероятности n-грамм грамматических категорий Вероятность правдоподобия документа: вероятность встречаемости n-граммы количество n-грамм www.mail.ru 20

  21. Мы привели несколько характеристических языковых признаков и увидели, что они дают лучшее разделение, чем признаки, полученные на основе параметров страницы. В эксперименте мы рассчитали 10 дополнительных признаков, основанных на статистике распределения слов в текстах. Теперь, имея хороший набор факторов, перейдем к решению поставленной задачи, а именно – попробуем создать классификатор на основе описанных признаков. www.mail.ru 21

  22. Классификатор — многослойный персептрон: Входной слой — 80 нейронов , Скрытый слой — 96 нейронов Выходной слой — 2 нейрона спам=1 и не-спам=0 Функция активации — сигмоид Для тренировки нашего классификатора мы использовали страницы, отобранные асессорами. ___________________________________________ Обучающий вектор - 80 признаков. Размер обучающего множества — 20000 страниц. Размер тестового множества — 50000 страниц. ___________________________________________ Точность - 0,97 Полнота - 0,94 F-мера - 0,96 www.mail.ru 22

  23. Результат показывает, что использование признаков, связанных со статистикой распределения слов и грамматических конструкций в текстах, привело к значительному улучшению качества классификации спам-страниц, даже несмотря на использование слабого алгоритма классификации. www.mail.ru

  24. Что делать дальше. Можно ли использовать информацию, полученную из контентента страниц, для классификации сайтов? www.mail.ru 24

  25. Спам или нет? Спам сайт Не спам сайт 100% = спам 0% = не спам www.mail.ru 25

  26. Спам или нет? Спам сайт Не спам сайт ? ? ? www.mail.ru 26

  27. Причины: • Хороший сайт со спам страницами: • Ошибка классификатора. • Взломанный сайт. • Переоптимизированный контент. • Спам сайт с полезными страницами: • Ошибка классификатора. • Разбавление спама не спам страницами. www.mail.ru 27

  28. Характеристики сайта: Доля спам страниц. Расположение спам страниц. Вероятность прихода/ухода на спам страницу с сайта. На какие страницы ведут входящие/исходящие ссылки. Вероятность участия в спам-ферме. www.mail.ru www.mail.ru 28

  29. Доля спам страниц Доля сайтов Доля спам страниц www.mail.ru www.mail.ru 29

  30. Распределение спама по сайту Доля сайтов Энтропия спам страниц www.mail.ru www.mail.ru 30

  31. Участие в спам ферме 20% 60% 100% 0% 50% 45% P=0,3 Дорвеи Целевой сайт Вычисляем вероятность того, что сайт раскручивается спам-сайтами. Вычисляем вероятность участия в спам-ферме. www.mail.ru 31

  32. Вероятность участия в спам-ферме www.mail.ru 32

  33. На отобранных признаках строим классификатор. Всего получили 20 признаков Используем алгоритм Еxpectation Maximization для выделения из множества сайтов двух центров, соответствующих классам: спам и не спам. Используем полученные центры как исходные данные для классификации при помощи алгоритма k-nearest neighbor.

  34. Результаты: Уменьшение количества спама в выдаче в среднем на 20%. Точность анализатора - 90%. Доля спам сайтов - 17%.

  35. Спасибо! Вопросы. Дмитрий Соловьев d.soloviev@corp.mail.ru Евгений Чернов e.chernov@corp.mail.ru www.mail.ru

More Related