850 likes | 947 Views
Novos Métodos de Classificação Nebulosa e de Validação de Categorias e suas Aplicações a Problemas de Reconhecimento de Padrões. Cláudia Rita de Franco Orientador: Adriano Joaquim de Oliveira Cruz Março/2002. Problemas Abordados. Validação de Categorias
E N D
Novos Métodos de Classificação Nebulosa e de Validação de Categorias e suas Aplicações a Problemas de Reconhecimento de Padrões Cláudia Rita de Franco Orientador: Adriano Joaquim de Oliveira Cruz Março/2002
Problemas Abordados • Validação de Categorias • Descobrir o número e a disposição das categorias que melhor representam o problema • Reconhecimento de Padrões • Identificar e classificar padrões recorrentes nos dados
Índice • Estudo Realizado • Categorização • Classificação • Validação de Categorias • Propostas • EFLD • ICC • Sistema ICC-KNN
Estudo Realizado Categorização Classificação Validação de Categorias
Categorização • Processo de particionar um conjunto de amostras em subconjuntos (categorias) • Dados similares entre si por suas características • Disposição Espacial • Categoria definida pela proximidade das amostras – Distância • Partições Rígidas e Nebulosas
Classificação • Técnica que associa amostras a classes previamente conhecidas • Rígida e Nebulosa • Supervisionados • MLP treinamento • Não supervisionados • K-NN e K-NN nebuloso sem treinamento
Reconhecimento de Padrões • Reconhecimento de Padrões + Categorização Sistema Estatístico Não paramétrico de Reconhecimento de Padrões • Estatístico avalia a similaridade dos dados através de medidas matemáticas • Não-Paramétrico sem conhecimento prévio da distribuição das amostras
Identificação de Características Denominação de Características Dados de Treinamento Taxa de erro Extração de Características Classificador Dados de Teste Categorização Validação de Categorias Sistema Estatístico Não-Paramétrico de Reconhecimento de Padrões
Métodos de Categorização • Não-Hierárquicos • Dados distribuídos pelo número de categorias pré-definido • Critério é otimizado • Minimização da variação interna das categorias
Métodos de Categorização • Hierárquico 1ª Abordagem • Cada ponto é um centro de categoria • Cada 2 pontos mais próximos são fundidos em uma categoria • Número de categorias desejado é atingido • Hierárquico 2ª Abordagem • Uma categoria contém todas as amostras • Critério é utilizado para dividí-la no número de categorias desejado
Métodos de Categorização • Rígidos • Cada amostra pertence a uma única categoria • Nebulosos • Cada amostra pertence a todos os agrupamentos com diferentes graus de afinidade • Grau de inclusão
Métodos de Categorização k-Means K-NN e K-NN nebuloso FCM FKCN GG GK
Métodos de Categorização • K-Means e FCM • Distância Euclidiana Hiperesferas • Gustafson-Kessel • Distância de Mahalanobis Hiperelipsóides • Gath-Geva • Distância de Gauss superfícies convexas de formato indeterminado
Rede Kohonen de Categorização Nebulosa FKCN • Método de Categorização Nebuloso não supervisionado • Distância Euclidiana • Categorias hiperesféricas • Converge mais rápido que FCM • Forte tendência a convergir para mínimos locais • Categorias pouco representam as classes
K-NN e K-NN nebuloso • Métodos de Classificação • Classes identificadas por padrões • Classifica pelos k vizinhos mais próximos • Conhecimento a priori das classes do problema • Não se restringe à uma distribuição específica das amostras
Classe 2 Classe 1 Classe 3 w4 w2 w5 w3 w13 w9 w14 w1 w10 w8 w7 w6 w11 w12 Classe 4 Classe 5 K-NN Rígido
Classe 2 Classe 1 Classe 3 w2 w4 w5 w13 w9 w1 w14 w3 w10 w8 w7 w6 w11 w12 Classe 4 Classe 5 K-NN Nebuloso
Medidas de Validação • Usadas para encontrar o número ideal de categorias que melhor representa o espaço amostral • Número de classes desconhecido • Número de classes Número de categorias
Medidas de Validação • Aplicadas a partições geradas por um método de categorização • Estima qualidade das categorias geradas • Rígidas ou Nebulosas
Coeficiente de Partição – F • Medida de Validação Nebulosa • Maximizar – 1/c F 1 • Diretamente influenciada pelo • Número de categorias e Sobreposição das classes
Compacidade e Separação – CS • Medida de Validação Nebulosa • Minimizar – 0 CS • Avalia diferentes funções objetivo
Compacidade e Separação – CS • Mede: • O grau de separação entre as categorias • A compacidade das categorias • Não sofre influência da sobreposição das categorias • Maior taxa de acertos dentre as medidas de validação estudadas
Discriminante Linear de Fisher - FLD • Medida de Validação Rígida • Mede a compacidade e a separação entre as categorias • Matriz de Espalhamento entre Classes – SB • Matriz de Espalhamento Interno – SW
Discriminante Linear de Fisher - FLD • Critério J – Maximizado
Indicadores de Validade • Calculam o grau de separação entre as categorias • Menor a sobreposição das categorias melhor a categorização obtida • MinRF, MaxRF e MinNMMcard
Propostas EFLD ICC Sistema ICC-KNN
EFLD • Extended Fisher Linear Discriminant • Extensão do Discriminante Linear de Fisher • Capacidade de validar categorias rígidas e nebulosas
EFLD • Matriz Estendida de Espalhamento entre Classes • mieé o centróide da categoria i e
EFLD • Matriz Estendida de Espalhamento Interno • Matriz Estendida de Espalhamento Total
EFLD • Conclusão • Espalhamento total do sistema é independente da natureza das partições se o somatório dos graus de inclusão dos pontos em cada categoria é igual a 1 Constante
EFLD • Critério de Fisher Estendido • Determinante – limite em relação ao número de pontos de cada categoria • Traço – mais rápido de calcular • Sem limitações de número de pontos
EFLD – Otimização • Matrizes de Espalhamento – geradas pelo produto de um vetor coluna por seu transposto • Traço – quadrado do módulo do vetor gerador
EFLD – Otimização • Soma dos traços das matrizes SBe e SWe é constante • sTe é calculado uma única vez • sBe é mais rápido de calcular que sWe
EFLD – Otimização • O critério de Fisher J pode ser reescrito como • Vantagem – cálculo mais rápido • Melhor número de categorias - Maximizar
EFLD – Aplicação • Três classes com 500 pontos cada • X1 – (1,1), (6,1), (3,5, 7) com Std 0,3 • X2 – (1,5, 2,5), (4,5, 2,5), (3,5, 4,5) com Std 0,7 • Aplicar FCM para m = 2 e c = 2 ...6
EFLD – Aplicação • Para classes sobrepostas, Je, como J, erra alta sobreposição baixa confiabilidade • Comportamento análogo ao FLD
EFLD – Aplicação Alocação errônea dos centros Mínimo local = Ponto médio do conjunto de pontos Je extremamente pequeno = 9,8010 x 10-5
ICC – Inter Class Contrast • EFLD • Cresce conforme o número de partições cresce • Cresce com a sobreposição das classes Atinge um valor máximo para um falso número ideal de categorias
ICC • Avalia um espaço particionado rígido ou nebuloso • Analisa: • Compacidade das categorias • Separação das categorias • Maximizar
ICC • sBe – estima a qualidade da alocação dos centros das categorias • 1/n – fator de escala • Compensa a influência do número de pontos no termo sBe
ICC • Dmin – distância Euclidiana mínima entre os centros das categorias • Neutraliza o comportamento crescente de sBe evitando o máximo valor de ICC para uma número de categorias superior ao ideal • 2 ou mais categorias representam uma classe – Dmin decresce abruptamente
ICC • – Raiz do número de categorias • Evita o máximo valor de ICC para uma número de categorias inferior ao ideal • 1 categoria representa 2 ou mais classes • Dmin aumenta
ICC – Aplicação Nebulosa • Cinco classes com 500 pontos cada • Sem sobreposição de classes • X1 – (1,2), (6,2), (1, 6), (6,6), (3,5, 9) Std 0,3 • Aplicar FCM para m = 2 e c = 2 ...10
ICC – Aplicação Nebulosa • Cinco classes com 500 pontos cada • Alta sobreposição de classes • X1 – (1,2), (6,2), (1, 6), (6,6), (3,5, 9) Std 0,3 • Aplicar FCM para m = 2 e c = 2 ...10