1 / 33

Задачи классификации и дискриминации

Задачи классификации и дискриминации. Родионова Оксана Евгеньевна rcs@chph.ras.ru Институт химической физики РАН, Российское хемометрическое общество. Метод - МГК Задачи Анализ структуры, поиск латентных переменных Классификация и дискриминация. Методы : РГК, РЛС Задачи

neila
Download Presentation

Задачи классификации и дискриминации

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Задачи классификации и дискриминации Родионова ОксанаЕвгеньевна rcs@chph.ras.ru Институт химической физики РАН, Российское хемометрическое общество

  2. Метод- МГК • Задачи • Анализ структуры, поиск латентных переменных • Классификация и дискриминация • Методы : РГК, РЛС • Задачи • Построение модели Y(X) • Прогнозирование Два класса решаемых задач Классификация и дискриминация SIMCA , PLS-D

  3. Не известно существуют ли скрытые группы и сколько их Известно о том, какой группе принадлежат объекты из исходного набора данных Основной механизм – поиск аналогий в свойствах объектов Основной механизм – построение модели, для той или иной группы Основная цель – установить наличие групп (классов), а также выявить причины кластеризации Основная цель классификации новых образцов Распознавание образов(pattern recognition) Без обучения ( Unsupervised) C обучением (Supervised)

  4. Геометрическая интерпретация Вектор признаков –переменные (степени свободы) образующие p-мерную систему координат (p – число переменных в векторе признаков) Объекты / образцы/ измерения – точки в пространстве признаков Группы или классы –ограниченные подпространства в пространстве признаков: гиперкуб, гиперсфера и т.п.

  5. Идеальный случай разделения Имеются выбросы Возможные ситуации

  6. X2 X1 Один из классов не имеет четкой структуры Классы перекрываются Возможные ситуации

  7. Этапы классификации • МГК • Факторный анализ • Кластерный анализ • ... I.Выявление различных групп } II.Построение модели • SIMCA • PLS-D • ... III.Классификация новых образцов

  8. X2 X1 Метод SIMCASoft Independent Modeling of Class Analogy Метод формального независимого моделирования аналогий классов • Каждый класс моделируется отдельно с помощью МГК • Новый образец проверяется на принадлежность каждому построенному классу (Svante Wold, 1976)

  9. Этап-1. Моделирование Каждый класс из обучающего набора независимо моделируется МГК с разным числом главных компонент. • Предварительная подготовка данных • Удаление выбросов • Проверка модели и оценка значимости выбранного числа ГК

  10. Размах h: расстояние внутри модели Отклонениеd: расстояние до модели Этап -2. Построение контрольных уровней и анализ модели

  11. Этап – 3. Сравнение моделей Вычисление расстояний между классами и оценка влияние переменных на разделение по классам

  12. Этап классификации новых образцов Расстояние от образца до класса Расстояние от образца до центра модели

  13. Результаты классификации методом SIMCA • Классификационная таблица • График Si vs hi • График Si/S0 vs hi • График Кумана } Расстояние от образца до одной модели Расстояние от образца до 2-х разных моделей • Расстояние между моделями • Модельная мощность переменных • Дискриминационная мощность переменных

  14. подлинные образцы; поддельные Распознавание фальсифицированных лекарств - I Пищеварительный фермент. Образцы - таблетки в оболочке Всего: 55 образцов 3 серии подлинных образцов 30таб. 4 серии поддельных образцов 25таб. Измерения: спектры диффузнного рассеяния 4000 –7500 см-1. (1750 длин волн).

  15. Предварительный МГК анализ 55 образцов Обучающий набор: 25 подлинных образцов • Проверочный набор: • 25 поддельных образцов • 5 подлинных образцов

  16. Построение модели для одного класса

  17. SIMCA - классификация График Si vs hi(Si/S0 vs hi) Si , hi Scrit hcrit

  18. Распознавание фальсифицированных лекарств - II Бактерицидное средство. Образцы - таблетки в оболочке Всего: 30 образцов 2 серии подлинных образцов 10таб. 1 серия «дженерик» образцов 10 таб. 1 серия поддельных образцов 10 таб. Измерения: спектры диффузного рассеяния 1140 –2300 nm. (580длин волн).

  19. Предварительный МГК анализ 30 образцов Обучающий набор: 8 подлинных образцов 9 «дженерик» образцов • Проверочный набор: • 10 поддельных образцов • 2 подлинных образца • 1 «дженерик»

  20. График Кумана(Cooman’s plot ) Расстояние от образца до 2-х классов

  21. Расстояние между классами( Model Distance ) Расстояние от одного класса до всех остальных классов. ModelDistance(q,q)=1 ModelDistan(q,m)>3 – хорошее разделение

  22. Дискриминационная мощность переменной(Discrimination Power ) Способность j-ой переменной разделять два класса. Dj>3 - j-ая переменная сильно влияет на разделение классов.

  23. Модельная мощность переменной( Modeling Power ) Показывает насколько сильное влияние оказывает j-ая переменная на построение модели (класса) Mj : 1 0 Mj>0.3 - сильное влияние на модель

  24. Реализации процесса s1, s2, ... ,s54 Ключевые переменные процесса (датчики) X1, X2, ... , X17 … … Пример данных о процессе t1t69 новая реализация

  25. Файл Wines(Riccardo Leardi, Genoa, Italy) 178 образцов 13 переменных 3 классa Обучающий набор: 148 образцов Проверочный набор: 30 образцов

  26. Методы многомерной классификации Предварительный МГК анализ График счетов T1 vs. T2

  27. План упражнения 1. Предобработка исходных данных 2. Построение общей МГК модели 3. Построение индивидуальных МГК моделей для каждого класса. Сохранение моделей 4. Классификация новых образцов : Таблица результатов, график Si vs. hi , график Кумана 5. Анализ результатов

  28. X-переменные (дескрипторы) Y-переменные (индикаторы) Матрица измерений Матрица принадлежности классу Класс 1 (I1) Y1 Y2 YN Класс 2 (I2) Класс N (IN) ПЛС дискриминация PLS-D

  29. Влияние ванадиевой пыли на людей(Prof. Pentti Minkkinen, Lappeenranta University of Technology, Finland) Испытательная группа 18 человек подверженных пыли V2O5 на фабрике Контрольная группа 17 человек Измерялись 26клинических показателей плазмы крови

  30. График счетов 5 4 3 V V V V V 2 V V V V V 1 V V V C C V V C ГК2 (17.5 %) 0 C V C V V C C -1 C C C -2 C C C C C C -3 C -4 -5 -5 0 5 ГК1 (29.9 %)

  31. Дискриминация (PLS-D) Матрица дескрипторовX Матрица индикаторовY CLASS C PLS1 CLASSV

  32. Графиксчетов в PLS-D 3 ГК2 C 2 C C C C C V C 1 V C V V C V V C 0 C V V V C C V C V V -1 C V V V V C V C V -2 ГК1 -3 -5 -4 -3 -2 -1 0 1 2 3 4

  33. Файл Wines_PLS 178 образцов 13 переменных 3 классa Обучающий набор: 148 образцов Проверочный набор: 30 образцов Файл WINES_DPLS Матрица Y 1783 Матрица X 17813

More Related