790 likes | 1.28k Views
«Введение в компьютерное зрение». Владимир Вежневец, Антон Конушин Александр Вежневец. МГУ ВМК, Graphics & Media Lab, Осень 200 6. План лекции. Деревья классификации Байесовский подход к классификации «Наивный» Байесовский классификатор ( Idiot Bayes ) Нормальный дискриминантный анализ
E N D
«Введение в компьютерное зрение» Владимир Вежневец, Антон Конушин Александр Вежневец МГУ ВМК, Graphics & Media Lab, Осень 2006
План лекции • Деревья классификации • Байесовский подход к классификации • «Наивный» Байесовский классификатор (Idiot Bayes) • Нормальный дискриминантный анализ • Нейронные сети • Метод опорных векторов • Комитетные методы • Bagging • Boosting
Вопросы с предыдущей лекции • Почему не рассказываем про обучение «на лету»? • Почему же скользящий контроль лучше повторного удерживания?
Обучение на лету • Модель: • Множество состояний S • Множество действийA • Скалярный «выигрыш»r • В каждый момент времени t : • Агент получает свое состояние • и набор возможных действий • Агент выбирает действие и получает «выигрыш» • Требуется максимизировать выигрыш • Ясно, что выигрыш можно оптимизировать «жадно» и «дальне-срочно» - определяется задачей
Особенности • Нет готовых ответов, есть «запоздалый выигрыш» • Требует от системы возможности постоянно получать отклик о качестве работы (выигрыш); • Зачастую, невозможное требование для коммерческих систем компьютерного зрения; • Применение • Игры; • Робот в лабиринте; • Частичная видимость среды; • Для задач допускающих формулировку в виде задач обучения с учителем применение обучения «на лету» дает заведомо худший результат!
Почему же скользящий контроль лучше повторного удерживания? • Основной довод скользящего контроля: • Каждый элемент гарантированно попадет в контрольную выборку хотя бы один раз • Довод 5-2 контроля: • Тренировочные выборки абсолютно декоррелированы (не пересекаются) • Каждый прецедент учувствует в тренировке и контроля ровно по 5 раз
Почему же скользящий контроль лучше повторного удерживания? • Вероятность пропустить хотя бы один прецедент при повторном удерживании: • - доля прецедентов в контрольной выборке • - количество прецедентов всего • - количество итераций • При • Вероятность, что прецеденты будут выбраны в равных долях еще меньше!!!
Деревья классификации Classification trees
Деревья классификацииМодель алгоритма • Двоичное дерево • Узлы: • Помечены некоторым предикатом • Связи: • Помечены • Листья: • Помечены ответами из Y *Вопрос: кто помнит, что такое предикат?
Деревья классификацииМодель алгоритма • Выходом классификатора является значение листа, полученного при обходе: • Начинаем от корня • Переходим в тот узел, в который ведет связь помеченная значением предиката в текущем узле • Заканчиваем, попав в лист
Пример ВАЖНО: каждый лист определяет собой область пространства Х
Деревья классификацииПример работы
Деревья классификацииМодель алгоритма: пространство поиска • Количество ветвлений - сильно влияет на сложность алгоритма и соответственно на размерность Вапника-Червоненкиса и склонность к переобучению • Предикаты – обычно, используются пороги по проекциям на оси координат (на элементы вектора признаков)
Деревья классификацииМетод обучения • Введем меру «неоднородности» для листа дерева • Пусть, при обходе дерева до вершины m из тренировочной выборке «доходят» Nmпрецедентов; • Из них Nmyпрецедентов принадлежат классу y • Пусть, • Тогда «неоднородность» листа m-
Деревья классификацииМетод обучения • Пусть, дана обучающая выборка • Строим от корня: • Если текущая вершина однородная, то она лист; алгоритм останавливается • Если же нет, делаем разбиение, минимизирующие «неоднородность» • Для каждой из получившихся вершин повторяем процедуру
Особенности • Минусы • Плохо аппроксимирует сложные поверхности • В общем случае, требует сложных алгоритмов «обрезания» для контроля сложности • Плюсы • Просто и наглядно • Легко анализируемо • Быстро работает • Легко применяется для задач со множеством классов и к регрессии
Иллюстрация Верный источник как Недо- так пере-обучения!
Байесовская стратегия классификации Bayesian classification
Статистическая формулировка • Пусть – вероятностное пространство • Пусть мера пространства P • Множество прецедентов выбрано случайно и независимо согласно распределению P(случайная выборка); для них известны ответы • Требуется построить отображение
Статистическая формулировкаБинарная классификация • Эмпирический риск: • Общий риск: • рассчитать невозможно • требуется минимизировать
Формула Байеса Байесовский классификатор • Предположения: • Известна функция правдоподобия: • Известны априорные вероятности: • Принцип максимума апостериорной вероятности: Правдоподобие – условная вероятность наблюдения Вероятность класса Вероятность наблюдения
Пример:Какова вероятность увидеть на улице динозавра? Идя по улице вы видите такую сцену: (это и есть наблюдение х) Вычислим вероятность того, что наблюдая такую сцены мы действительно видим динозавра Априорная вероятность встретить динозавра Правдоподобие – вероятность того, что будь это действительно динозавр наблюдение было бы таким Априорная вероятность увидеть такую сцену
Пусть : Пример:Какова вероятность увидеть на улице динозавра? Априорная вероятность встретить динозавра Правдоподобие – вероятность того, что будь это действительно динозавр наблюдение было бы таким Априорная вероятность увидеть такую сцену
Свойства классификатора • Модель алгоритма и метод обучение строго не определены (не нужны даже обучающая выборка) – классификатор строится непосредственно по функциям априорных вероятностей и правдоподобия данным «свыше» • Дает наименьший общий риск (состоятелен) при выполнении предположений
Практическое применение • На практике, функция правдоподобия и априорные вероятности обычно не известны; • Для применения Байесвокого подхода на практике требуется каким либо образом их оценить • Зачастую, предполагается что объекты принадлежат какому-то статистическому распределению, параметры которого оцениваются на обучающей выборке; • Априорные оценки так же вычисляются на обучающей выборке
«Наивный» Байесовский классификатор • Пусть, множество X является конечным • Множество цветов в системе RGB • Набор логических атрибутов (наличие в письме того или иного слова) • Для каждого значения из X по обучающей выборке оценим функцию правдоподобия • Так же, оценим априорную вероятности
«Наивный» Байесовский классификаторСегментация кожи • Для всех возможных цветов по обучающей выборке строится таблица правдоподобия и рассчитывается априорная вероятность
Нормальный дискриминантный анализ Normal discriminant analyzes
Нормальный дискриминантный анализ • Предположения: • Функции правдоподобия имеют нормальное распределение: • Дана обучающая выборка прецедентов (случайных и независимых)
Нормальное распределение • Поверхность, на которой точки имеют равную вероятность представляет собой эллипсоид • Мат. ожидание – центр эллипса, ковариационная матрица – матрица поворота и растяжения (задает оси эллипса)
Расчет разделяющей поверхности • Обозначим: • Запишем уравнение разделяющей поверхности (на этой поверхности вероятности равны): • Распишем: С=const(x)
Расчет разделяющей поверхности Поверхность становится квадратичной!
Модель алгоритма • Классификатор строится в виде некоторой поверхности, отвечающей принципу максимума апостериорной вероятности • Поверхность зависит только от параметров распределений – пространство поиска
Метод обучения • Для построения классификатора требуется по обучающей выборке оценить параметры распределений • С учётом их случайности и независимости, можно применять стандартный механизм оценки параметров из математической статистики • Например, метод максимального правдоподобия
Свойства классификатора • В случае точной оценки параметров распределений и априорных вероятностей является Байесовским (дает минимум общего риска); • Строит простую для вычисления поверхность (линейную или квадратичную); • Делает сильное предположение о нормальности распределений • В случае невыполнения предположений даёт непредсказуемый результат
Советы по практическому применению • Проверить классы на нормальность! • Хи-квадрат статистика • В случае наличия выбросов использовать робастные оценки • MLESAC • Аккуратно оценить априорные вероятности
Развитие метода • Обобщение на множество классов • Введение риска
Нейронные сети Neural Networks
Нейоронные сети • Предпосылка: • Известно, что биологические системы (люди, животные) прекрасно справляются со сложными задачами распознавания образов; • Основная идея: • Применить знания о работе мозга (людей, животных) для решения задач распознавания образов;
Биологические нейронные сети • 1872-1895 гг. • Понятие нейрона и нейронной сети; • Первые предположения о принципе работы;
Биологический нейронПередача импульса Дендриты Например, могут быть присоединены к рецепторам Аксон Может быть присоединен к мышцам
Нейронная сеть • Совокупность соединенных между собой нейронов; • Сеть осуществляет преобразование входного сигнала с рецепторов в выходной, являющейся реакцией организма на внешнюю среду
Модель кибернетического нейрона Блок преобразования Синаптические веса Выходной сигнал Входной сигнал Блок суммирования McCulloch, W. and Pitts, W. (1943)
Персептрон РозенблатаМодель алгоритма Слой нейронов Порог Кибернетический нейрон Выходной сигнал Входной сигнал Функция преобразования - линейная *Вопрос: зачем x0 ? Rosenblatt (1962)
Персептрон РозенблатаМодель алгоритма • Свойства • Линейная классификация • Легко обобщается на множество классов ?
Персептрон РозенблатаМетодобучения • Пусть дана обучающая выборка • Пусть, матрица есть матрица весов, где элемент есть вес связи нейрона j и входаi • Проинициализируем, случайными малыми значениями • Для • Пусть, на входной образ сеть дает ответ • Вычисляем ошибку • Правим веса • Повторяем, пока ошибка не будет меньше некоторого малого числа
Персептрон РозенблатаМетодобучения • Особенности обучения • Прецеденты выучиваются по очереди • Оптимизируется эмпирический риск • Процесс сходится к некоторому локальному минимуму • Зависит от начальной точки