450 likes | 625 Views
Системный анализ данных в задаче нейросетевой классификации. Дорогов А.Ю. Каф. Автоматики и процессов управления Санкт-Петербургского государственного электротехнического университета «ЛЭТИ». ПРОБЛЕМЫ КОЛЛЕКТИВНОЙ КЛАССИФИКАЦИИ. 1. Противоречия в данных.
E N D
Системный анализ данных в задаче нейросетевой классификации Дорогов А.Ю. Каф. Автоматики и процессов управления Санкт-Петербургского государственного электротехнического университета «ЛЭТИ» Семинар "Нейроинформатика" Санкт-Петербург 2008
ПРОБЛЕМЫ КОЛЛЕКТИВНОЙ КЛАССИФИКАЦИИ • 1. Противоречия в данных. • 2. Области компетенции частных классификаторов. • 3. Малые обучающие выборки. • 4. Интеграция частных решений. Семинар "Нейроинформатика" Санкт-Петербург 2008
Область компетенции классификатора • Под областью компетенции понимается подмножество объектов признакового подпространства, в пределах которого определена сфера действия частного классификатора с заданным подмножеством распознаваемых образов. • Главная проблема заключается в отсутствии достоверного критерия однородности для признакового поля области компетенции. Семинар "Нейроинформатика" Санкт-Петербург 2008
Предлагаемые решения • 1. Локализация однородных артефактов признакового пространства. • 2. Индуктивная схема объединения однородных локальностей. • 3. Выделение стереотипов поведения. • 4. Статистическая верификация эталонных моделей. • 5. Слабообученные частные нейросетевые классификаторы. • 6. Голосующий алгоритм интеграции частных классификаций. Семинар "Нейроинформатика" Санкт-Петербург 2008
Содержание • Алгебраическая модель знакового графа. • Принципы локальной балансировки. • Структурный портрет системы данных. • Верификация эталонных моделей. • Коллективная классификация образов. • Результаты экспериментов. Семинар "Нейроинформатика" Санкт-Петербург 2008
Триангуляция знаковых графов • Декомпозиция согласованного контура • Треугольник противоречий Семинар "Нейроинформатика" Санкт-Петербург 2008
Варианты согласования треугольника противоречий Семинар "Нейроинформатика" Санкт-Петербург 2008
Полная модель знакового треугольника • Внутренние связи - двусторонние, симметричные • Внешние связи - односторонние Семинар "Нейроинформатика" Санкт-Петербург 2008
Матричная интерпретация • Алгебраическая система знакового графа Системная матрица Семинар "Нейроинформатика" Санкт-Петербург 2008
Баланс полносвязанных графов • Теорема. Если в полносвязанном знаковом графе отрицательные связи образуют связанный подграф, в котором существуют, по крайней мере, две вершины, связанные отрицательными связями со всеми другими вершинами подграфа, то исходный граф несбалансирован и определитель его системной матрицы равен нулю. Семинар "Нейроинформатика" Санкт-Петербург 2008
Оценка степени обусловленности системной матрицы • Топологические формула расчета определителя • Разложение графа по вершине Семинар "Нейроинформатика" Санкт-Петербург 2008
Элементарные графы • Диполь и ленточный граф Семинар "Нейроинформатика" Санкт-Петербург 2008
Концепция ближайшего окружения • Тетраэдр окружения Семинар "Нейроинформатика" Санкт-Петербург 2008
Теорема «О разделении граней» Если в основании тетраэдра размещен несбалансированный треугольник, то только две из четырех граней тетраэдра могут быть согласованы. Семинар "Нейроинформатика" Санкт-Петербург 2008
Морфология многовершинной структуры Семинар "Нейроинформатика" Санкт-Петербург 2008
Разделяющая структура Осевая симметрия треугольника выделяется однозначно, если построенная многовершинная структура из тетраэдров окружения удовлетворяет следующим условиям: 1) Количество согласованных треугольников в структуре равно N, тогда как число не согласованных треугольников в ней, включая основание равно 2N. 2) Только одно ребро основания (база) определяет с вершинами окружения Nсогласованных треугольников. 3) Сумма согласованных треугольников, образованных вершинами окружения и двумя другими ребрами основания структуры равна N. Семинар "Нейроинформатика" Санкт-Петербург 2008
Варианты согласования многовершинной структуры Семинар "Нейроинформатика" Санкт-Петербург 2008
Ориентированная разделяющая структура Семинар "Нейроинформатика" Санкт-Петербург 2008
Разделяющая структура в реальных данных Семинар "Нейроинформатика" Санкт-Петербург 2008
Эталонная модель Семинар "Нейроинформатика" Санкт-Петербург 2008
Концепция открытой локальности Семинар "Нейроинформатика" Санкт-Петербург 2008
Интегрированная SHARE • Анализ Семинар "Нейроинформатика" Санкт-Петербург 2008
Поляризация факторов ISHARE Семинар "Нейроинформатика" Санкт-Петербург 2008
ISHARE в реальных данных Семинар "Нейроинформатика" Санкт-Петербург 2008
Многофакторные модели • Дуплет «Подобие (SIM)» и модели iBase Семинар "Нейроинформатика" Санкт-Петербург 2008
Двухфакторные модели взаимодействий • Дуплеты SWI Семинар "Нейроинформатика" Санкт-Петербург 2008
Дуплет SWI в реальных данных Семинар "Нейроинформатика" Санкт-Петербург 2008
Оценка степени обсловленности для дуплетов • Модель без дополнительного ребра • Модель с дополнительным ребром Семинар "Нейроинформатика" Санкт-Петербург 2008
Модель iBase в реальных данных Семинар "Нейроинформатика" Санкт-Петербург 2008
Структурный портрет системы реальных данных • Система данных представляет собой таблицу, состоящую из 56 количественных показателей и 214 объектов наблюдений. • Мерой связи является коэффициент корреляции. Связи считались значимыми, если вероятность гипотезы ошибочного значения коэффициента корреляции не превышала уровня 0.05. • Знаковый граф покрывает 55 вершин, имеет плотность 0.406 и состоит из 648 ребер, из которых 401 являются положительными и 247 отрицательными. • В графе обнаружено 3281 треугольников, из которых 393 являются треугольниками противоречий. Максимальная степень вершины 38, минимальная 2. Семинар "Нейроинформатика" Санкт-Петербург 2008
Системный портрет Семинар "Нейроинформатика" Санкт-Петербург 2008
Наполнение локальностей SHARE Семинар "Нейроинформатика" Санкт-Петербург 2008
Вершинное покрытие для множества дуплетов Семинар "Нейроинформатика" Санкт-Петербург 2008
Совпадение локальностей для дуплетов Семинар "Нейроинформатика" Санкт-Петербург 2008
ISHARE (Номер и имя особой вершины) Объемы кластеров Детерминистская верификация по особой вершине Детерминистская верификация по всем вершинам Стохастическая верификация Left Right Left Right Left Right 2=Y_DC 1 1 104 27 206 180 4=Cr_DC 11 11 69 65 198 200 5=Y_AC 13 13 84 80 208 209 7=Cr_AC 1 1 36 27 150 179 13=quadrant1 1 1 70 11 194 100 14=quadrant2 4 4 97 9 193 95 15=quadrant3 0 0 44 40 183 175 24=FormFac1 5 5 44 9 197 147 47=Mass3x 1 1 48 7 192 163 Верификация эталонных моделей Семинар "Нейроинформатика" Санкт-Петербург 2008
Показатель Значение Число объектов в базе данных 214 Число классов Concept/Мodifier () 118 Размерность признакового пространства () 56 Максимальная представительность образа 24 Минимальная представительность образа 1 Семантическая классификация изображений Семинар "Нейроинформатика" Санкт-Петербург 2008
Представительность образов в базе данных N=214, M=56 Links 648 PlusLinks 401 MinusLinks 247 NVertex 55 GraphDensity 0.40602 MaxVertexDegree 38 MinVertexDegree 2 Triangles 3674 Concert_Triangles 3281 Contr_Triangles 393 Семинар "Нейроинформатика" Санкт-Петербург 2008
Классификатор эталонной модели Семинар "Нейроинформатика" Санкт-Петербург 2008
Схема голосования Голосующий вес классификатора l по образу j Результаты голосования Решение о принадлежности к образу Семинар "Нейроинформатика" Санкт-Петербург 2008
Иерархия голосований Семинар "Нейроинформатика" Санкт-Петербург 2008
Обобщающая способность классификатора Семинар "Нейроинформатика" Санкт-Петербург 2008
Пример 2, N=535, M=99 Links 2556 PlusLinks 1447 MinusLinks 1109 NVertex 99 GraphDensity 0.50614 MaxVertexDegree 80 MinVertexDegree 17 Triangles 30744 Concert_Triangles 25805 Contr_Triangles 4939 Семинар "Нейроинформатика" Санкт-Петербург 2008
Обобщающая способность классификатора.Пример 2. Семинар "Нейроинформатика" Санкт-Петербург 2008