1 / 25

Анализ данных

Анализ данных. Лекция 2 Классификация. План лекции. Определение классификации Алгоритм 1R Наивный байесовский классификатор Основная цель: освоить 2 алгоритма классификации. Определение. Классификация – отнесение рассматриваемых объектов в одному из заранее заданных классов

Download Presentation

Анализ данных

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Анализ данных Лекция 2 Классификация

  2. План лекции • Определение классификации • Алгоритм 1R • Наивный байесовский классификатор Основная цель: освоить 2 алгоритма классификации

  3. Определение • Классификация – отнесение рассматриваемых объектов в одному из заранее заданных классов • Классификатор – модель, по которой происходит это отнесение

  4. Формальное определение Множество рассматриваемых объектов: A = {a1, a2, a3 … an} У каждого объекта есть набор атрибутов: ai = {x1, x2, … xh, y} xi – независимые переменные, y – зависимая Множество значений переменной y: Cy = {cy1, cy2, … cym} Если множество Cyконечное, то процесс поиска конкретного значения y для данного объекта - классификация

  5. Иллюстрация классификации y:Cy,1 y:Cy,2 y:Cy,3 X1=C1,8 X2=C2,1 X3=C3,4 … aj ai A ak

  6. Требования к классификации • В каждом акте деления необходимо применять только одно основание Нельзя разделить все заводы на прибыльные и кирпичные • Общий объем видовых понятий должен равняться объему делимого родового понятия Нельзя разделить все цвета на черный и белый • Классы должны взаимно исключать друг друга Нельзя разделить всех людей на умных и красивых • Деление должно быть последовательным Нельзя разделить весь животный мир царства и затем на разновидности

  7. Режимы работы классификатора Классификация – обучение с учителем Режимы работы классификатора: • Обучение классификатора – строится модель на основе обучающей выборки • Кросс-проверка – определение верности классификации на тестовой выборке • Классификация – определение класса объекта, у которого он не задан

  8. Режимы работы классификатора Невкусные? Я уверен только на 85% Okay Объект с такими атрибутами как у меня относится к классуВкусные Как думаешь, к какому классу я отношусь? (゚ _ ゚) Классификатор (゚ _ ゚) Классификатор (обученный) В Н Да, ты прав, я подгорел Ты вкусный! (゚ _ ゚) Классификатор (обученный, проверенный) В В Н

  9. Виды классификаторов Строят правила: если (условия), то (класс) если посещение лекций > 80%и защитил лабы = True, то класс = успешный студент

  10. Виды классификаторов Строят деревья: На лабы ходил? да нет Лабы защитил? Был на 80% лекций? да нет нет да Неуспешный Был на 80% лекций? Еще не все потеряно! да нет Успешный Почти успешный

  11. Далее алгоритмы на примере

  12. Алгоритм 1-rule Правила на основе значения одной переменной eслизаголовок=тематический, то статья=релевантная Ошибка правила – сколько объектов не удовлетворяет правилу из имеющих это значение переменной 3 тематических заголовка у нерелевантных статей 6 тематических заголовков Ошибка: 1/2

  13. Алгоритм 1-rule • Правила формируются из всех возможных значений всех независимых переменных • Вычисляется ошибка для каждого правила • Правило с наименьшей ошибкой - лучшее При классификации рассматривается только лучшее правило

  14. Примеры для закрепления Проверьте правила: Если ключевых слов > 50%, то статься релевантная Если тематика сайта не подходит, то статься нерелевантная

  15. Резюме 1-rule Достоинства: • Молниеносная классификация Недостатки: • Сверхчувствительность • Только для номинальных атрибутов Сфера применения: Наборы, где значение одной переменной сильно коррелирует со значением класса

  16. Naive Bayes Рассматривает несколько независимых переменных Наивный, потому что все переменные рассматриваются как независимые друг от друга, а это не всегда так Основная идея – вычисление условных вероятностей отнесения объекта к классам при определенных значениях зависимых переменных.

  17. Немного тервера Вероятность того, что объект iотносится к классуcj: P(y= cr) Вероятность значения остальных переменных определенным значениям: P(E) Eвсе равно что x1=cx1, x2=cx2 …

  18. Вероятность класса Вероятность класса crдля объекта при условии E: Так как все переменные независимы, то:

  19. Вероятность класса Вероятность класса crдля объекта при условии E: Вероятность принадлежности объекта к классу crпри xn=cnk: То есть отношение объектов с определенными значениями переменной и класса к объектам с определенным классом (1)

  20. Нормализованная вероятность Вероятность класса crдля объекта не только при E: Eсокращается Вычисляется для каждого значения класса (2)

  21. Алгоритм классификации • Вычисляем вероятности значений класса при определенном значении определенного атрибута • Находим вероятности значений класса при заданных условиях (формула 1) • Нормализуем результат (формула 2) • Делаем вывод о классе объекта

  22. Пример Определить релевантность статьи со следующими атрибутами: заголовок = нетематический ключевые слова = 70% тематика сайта = не подходит

  23. Примерсами посчитайте Шаг 1: P(заголовок=нетематический|статья=релев.) = … … Шаг 2: P(статья=релев.|E) = … P(статья=нерелев.|E) = … Шаг 3: P`(статья=релев.) = … P`(статья=нерелев.) = …

  24. Резюме Naive Bayes Достоинства: • Простота восприятия • Малая сложность вычислений Недостатки: • Относительно небольшая точность Сфера применения: • Один из двух самых популярных алгоритмов классификации, применяется везде

  25. Конец Любые вопросы по курсу: Ivan.Savin@2011.auditory.ru Ivan.Ignatyev@2006.auditory.ru Andrey.Grunau@2006.auditory.ru

More Related