1 / 12

Определение спам-изображений на основе перцептивных хешей

Определение спам-изображений на основе перцептивных хешей. Фефелов Алексей Андреевич, 545 группа Научный руководитель : к.ф.-м.н. , Д . Ю . Бугайченко Рецензент: к.ф.-м.н. А.Т. Вахитов. Введение. Фильтрация спама Социальные сети, сайты знакомств, блоги Электронная почта Мессенджеры

trish
Download Presentation

Определение спам-изображений на основе перцептивных хешей

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Определение спам-изображений на основе перцептивных хешей Фефелов Алексей Андреевич, 545 группа Научный руководитель: к.ф.-м.н. ,Д.Ю. Бугайченко Рецензент: к.ф.-м.н. А.Т. Вахитов

  2. Введение • Фильтрация спама • Социальные сети, сайты знакомств, блоги • Электронная почта • Мессенджеры • Способы борьбы со спамом • Пользовательская модерация • Статистические фильтры • Спам-изображения • Содержат похожие, но не идентичные фрагменты • Проблема: спамеры постоянно создают новые подложки и искажают фрагменты

  3. Возможные решения • Нейронные сети • Необходимость обучения • Алгоритмы на базе детекции особенностей (SURF, SIFT и другие) • Необходимость разрешения для использования в коммерческих целях/отсутствие зрелых библиотек • Низкая производительность • Использование перцептивных хешей • Можно сравнивать между собой • При вычислении применяются процессы, имитирующие различные аспекты восприятия информации человеком • Один из наиболее общих способов решения

  4. Постановка задачи • Изучить различные существующие подходы для вычисления перцептивных хешей изображений • Реализовать несколько хеш-алгоритмов и адаптировать их для задачи поиска спам-изображений • Протестировать алгоритмы на базе данных с изображениями, проанализировать результаты их работы • Подготовить условия для введения алгоритмов в эксплуатацию

  5. Используемые алгоритмы • Simple Hash (128байт) • Marr-Hildreth OperatorBasedHash (64 байта)

  6. Используемые алгоритмы(2) • Discrete Cosine Transform Based Hash – построение матрицы частот, избавление от высоких частот (8 байт) • Дискретное косинусное преобразование для вектора X длины N-1: • Radial Variance Based Hash – построение вектора энергий + DCT (40 байт)

  7. Схема архитектуры системы • Множество паттернов (пара спам-изображение и расположение фрагмента на нем) • Поиск подстроки, соответствующей хешу спам-фрагмента в хеше изображения

  8. Характеристики работы спам-фильтра • Спам-фильтр разбивает все изображения на 3 группы: «точно спам», «возможно спам», «точно не спам»

  9. Ложные срабатывания Рис. Ложно-позитивные(FAR) и ложно-негативные срабатывания(FRR) для алгоритмаDCTBH

  10. Сравнение результатов • 60000 изображений с музыкального сервиса социальной сетиodnoklassniki.ru, из которых 700 – спам, 3 типа спама

  11. Сравнение скоростей • Intel Core i5-2430M CPU (2,40 GHz)

  12. Результаты • Были изучены различные существующие подходы для вычисления перцептивных хешей изображений • 4 перцептивных хеш-алгоритма адаптировано для задачи поиска спам-изображений • Алгоритмы протестированы на реальных данных, проанализированы результаты их работы • Создано API для введения алгоритмов в эксплуатацию, компания «Одноклассники» рассматривает возможность внедрения полученных результатов для фильтрации спама

More Related