250 likes | 520 Views
Анализ данных. Лекция 2 Классификация. План лекции. Определение классификации Алгоритм 1R Наивный байесовский классификатор Основная цель: освоить 2 алгоритма классификации. Определение. Классификация – отнесение рассматриваемых объектов в одному из заранее заданных классов
E N D
Анализ данных Лекция 2 Классификация
План лекции • Определение классификации • Алгоритм 1R • Наивный байесовский классификатор Основная цель: освоить 2 алгоритма классификации
Определение • Классификация – отнесение рассматриваемых объектов в одному из заранее заданных классов • Классификатор – модель, по которой происходит это отнесение
Формальное определение Множество рассматриваемых объектов: A = {a1, a2, a3 … an} У каждого объекта есть набор атрибутов: ai = {x1, x2, … xh, y} xi – независимые переменные, y – зависимая Множество значений переменной y: Cy = {cy1, cy2, … cym} Если множество Cyконечное, то процесс поиска конкретного значения y для данного объекта - классификация
Иллюстрация классификации y:Cy,1 y:Cy,2 y:Cy,3 X1=C1,8 X2=C2,1 X3=C3,4 … aj ai A ak
Требования к классификации • В каждом акте деления необходимо применять только одно основание Нельзя разделить все заводы на прибыльные и кирпичные • Общий объем видовых понятий должен равняться объему делимого родового понятия Нельзя разделить все цвета на черный и белый • Классы должны взаимно исключать друг друга Нельзя разделить всех людей на умных и красивых • Деление должно быть последовательным Нельзя разделить весь животный мир царства и затем на разновидности
Режимы работы классификатора Классификация – обучение с учителем Режимы работы классификатора: • Обучение классификатора – строится модель на основе обучающей выборки • Кросс-проверка – определение верности классификации на тестовой выборке • Классификация – определение класса объекта, у которого он не задан
Режимы работы классификатора Невкусные? Я уверен только на 85% Okay Объект с такими атрибутами как у меня относится к классуВкусные Как думаешь, к какому классу я отношусь? (゚ _ ゚) Классификатор (゚ _ ゚) Классификатор (обученный) В Н Да, ты прав, я подгорел Ты вкусный! (゚ _ ゚) Классификатор (обученный, проверенный) В В Н
Виды классификаторов Строят правила: если (условия), то (класс) если посещение лекций > 80%и защитил лабы = True, то класс = успешный студент
Виды классификаторов Строят деревья: На лабы ходил? да нет Лабы защитил? Был на 80% лекций? да нет нет да Неуспешный Был на 80% лекций? Еще не все потеряно! да нет Успешный Почти успешный
Алгоритм 1-rule Правила на основе значения одной переменной eслизаголовок=тематический, то статья=релевантная Ошибка правила – сколько объектов не удовлетворяет правилу из имеющих это значение переменной 3 тематических заголовка у нерелевантных статей 6 тематических заголовков Ошибка: 1/2
Алгоритм 1-rule • Правила формируются из всех возможных значений всех независимых переменных • Вычисляется ошибка для каждого правила • Правило с наименьшей ошибкой - лучшее При классификации рассматривается только лучшее правило
Примеры для закрепления Проверьте правила: Если ключевых слов > 50%, то статься релевантная Если тематика сайта не подходит, то статься нерелевантная
Резюме 1-rule Достоинства: • Молниеносная классификация Недостатки: • Сверхчувствительность • Только для номинальных атрибутов Сфера применения: Наборы, где значение одной переменной сильно коррелирует со значением класса
Naive Bayes Рассматривает несколько независимых переменных Наивный, потому что все переменные рассматриваются как независимые друг от друга, а это не всегда так Основная идея – вычисление условных вероятностей отнесения объекта к классам при определенных значениях зависимых переменных.
Немного тервера Вероятность того, что объект iотносится к классуcj: P(y= cr) Вероятность значения остальных переменных определенным значениям: P(E) Eвсе равно что x1=cx1, x2=cx2 …
Вероятность класса Вероятность класса crдля объекта при условии E: Так как все переменные независимы, то:
Вероятность класса Вероятность класса crдля объекта при условии E: Вероятность принадлежности объекта к классу crпри xn=cnk: То есть отношение объектов с определенными значениями переменной и класса к объектам с определенным классом (1)
Нормализованная вероятность Вероятность класса crдля объекта не только при E: Eсокращается Вычисляется для каждого значения класса (2)
Алгоритм классификации • Вычисляем вероятности значений класса при определенном значении определенного атрибута • Находим вероятности значений класса при заданных условиях (формула 1) • Нормализуем результат (формула 2) • Делаем вывод о классе объекта
Пример Определить релевантность статьи со следующими атрибутами: заголовок = нетематический ключевые слова = 70% тематика сайта = не подходит
Примерсами посчитайте Шаг 1: P(заголовок=нетематический|статья=релев.) = … … Шаг 2: P(статья=релев.|E) = … P(статья=нерелев.|E) = … Шаг 3: P`(статья=релев.) = … P`(статья=нерелев.) = …
Резюме Naive Bayes Достоинства: • Простота восприятия • Малая сложность вычислений Недостатки: • Относительно небольшая точность Сфера применения: • Один из двух самых популярных алгоритмов классификации, применяется везде
Конец Любые вопросы по курсу: Ivan.Savin@2011.auditory.ru Ivan.Ignatyev@2006.auditory.ru Andrey.Grunau@2006.auditory.ru