120 likes | 433 Views
Определение спам-изображений на основе перцептивных хешей. Фефелов Алексей Андреевич, 545 группа Научный руководитель : к.ф.-м.н. , Д . Ю . Бугайченко Рецензент: к.ф.-м.н. А.Т. Вахитов. Введение. Фильтрация спама Социальные сети, сайты знакомств, блоги Электронная почта Мессенджеры
E N D
Определение спам-изображений на основе перцептивных хешей Фефелов Алексей Андреевич, 545 группа Научный руководитель: к.ф.-м.н. ,Д.Ю. Бугайченко Рецензент: к.ф.-м.н. А.Т. Вахитов
Введение • Фильтрация спама • Социальные сети, сайты знакомств, блоги • Электронная почта • Мессенджеры • Способы борьбы со спамом • Пользовательская модерация • Статистические фильтры • Спам-изображения • Содержат похожие, но не идентичные фрагменты • Проблема: спамеры постоянно создают новые подложки и искажают фрагменты
Возможные решения • Нейронные сети • Необходимость обучения • Алгоритмы на базе детекции особенностей (SURF, SIFT и другие) • Необходимость разрешения для использования в коммерческих целях/отсутствие зрелых библиотек • Низкая производительность • Использование перцептивных хешей • Можно сравнивать между собой • При вычислении применяются процессы, имитирующие различные аспекты восприятия информации человеком • Один из наиболее общих способов решения
Постановка задачи • Изучить различные существующие подходы для вычисления перцептивных хешей изображений • Реализовать несколько хеш-алгоритмов и адаптировать их для задачи поиска спам-изображений • Протестировать алгоритмы на базе данных с изображениями, проанализировать результаты их работы • Подготовить условия для введения алгоритмов в эксплуатацию
Используемые алгоритмы • Simple Hash (128байт) • Marr-Hildreth OperatorBasedHash (64 байта)
Используемые алгоритмы(2) • Discrete Cosine Transform Based Hash – построение матрицы частот, избавление от высоких частот (8 байт) • Дискретное косинусное преобразование для вектора X длины N-1: • Radial Variance Based Hash – построение вектора энергий + DCT (40 байт)
Схема архитектуры системы • Множество паттернов (пара спам-изображение и расположение фрагмента на нем) • Поиск подстроки, соответствующей хешу спам-фрагмента в хеше изображения
Характеристики работы спам-фильтра • Спам-фильтр разбивает все изображения на 3 группы: «точно спам», «возможно спам», «точно не спам»
Ложные срабатывания Рис. Ложно-позитивные(FAR) и ложно-негативные срабатывания(FRR) для алгоритмаDCTBH
Сравнение результатов • 60000 изображений с музыкального сервиса социальной сетиodnoklassniki.ru, из которых 700 – спам, 3 типа спама
Сравнение скоростей • Intel Core i5-2430M CPU (2,40 GHz)
Результаты • Были изучены различные существующие подходы для вычисления перцептивных хешей изображений • 4 перцептивных хеш-алгоритма адаптировано для задачи поиска спам-изображений • Алгоритмы протестированы на реальных данных, проанализированы результаты их работы • Создано API для введения алгоритмов в эксплуатацию, компания «Одноклассники» рассматривает возможность внедрения полученных результатов для фильтрации спама