850 likes | 936 Views
A Validity Measure for Hard and Fuzzy Clustering Derived from Fisher’s Linear Discriminant. Cláudia R. de Franco Leonardo da S. Vidal Adriano J. de O. Cruz May 2002. Topics. Validity Measures Finding the number and the distribution of clusters Pattern Recognition
E N D
A Validity Measure for Hard and Fuzzy Clustering Derived from Fisher’s Linear Discriminant Cláudia R. de Franco Leonardo da S. Vidal Adriano J. de O. Cruz May 2002
Topics • Validity Measures • Finding the number and the distribution of clusters • Pattern Recognition • Identify and classify patterns
Índice • Estudo Realizado • Categorização • Classificação • Validação de Categorias • Propostas • EFLD • ICC • Sistema ICC-KNN
Estudo Realizado Categorização Classificação Validação de Categorias
Categorização • Processo de particionar um conjunto de amostras em subconjuntos (categorias) • Dados similares entre si por suas características • Disposição Espacial • Categoria definida pela proximidade das amostras – Distância • Partições Rígidas e Nebulosas
Classificação • Técnica que associa amostras a classes previamente conhecidas • Rígida e Nebulosa • Supervisionados • MLP treinamento • Não supervisionados • K-NN e K-NN nebuloso sem treinamento
Reconhecimento de Padrões • Reconhecimento de Padrões + Categorização Sistema Estatístico Não paramétrico de Reconhecimento de Padrões • Estatístico avalia a similaridade dos dados através de medidas matemáticas • Não-Paramétrico sem conhecimento prévio da distribuição das amostras
Identificação de Características Denominação de Características Dados de Treinamento Taxa de erro Extração de Características Classificador Dados de Teste Categorização Validação de Categorias Sistema Estatístico Não-Paramétrico de Reconhecimento de Padrões
Métodos de Categorização • Não-Hierárquicos • Dados distribuídos pelo número de categorias pré-definido • Critério é otimizado • Minimização da variação interna das categorias
Métodos de Categorização • Hierárquico 1ª Abordagem • Cada ponto é um centro de categoria • Cada 2 pontos mais próximos são fundidos em uma categoria • Número de categorias desejado é atingido • Hierárquico 2ª Abordagem • Uma categoria contém todas as amostras • Critério é utilizado para dividí-la no número de categorias desejado
Métodos de Categorização • Rígidos • Cada amostra pertence a uma única categoria • Nebulosos • Cada amostra pertence a todos os agrupamentos com diferentes graus de afinidade • Grau de inclusão
Métodos de Categorização k-Means K-NN e K-NN nebuloso FCM FKCN GG GK
Métodos de Categorização • K-Means e FCM • Distância Euclidiana Hiperesferas • Gustafson-Kessel • Distância de Mahalanobis Hiperelipsóides • Gath-Geva • Distância de Gauss superfícies convexas de formato indeterminado
Rede Kohonen de Categorização Nebulosa FKCN • Método de Categorização Nebuloso não supervisionado • Distância Euclidiana • Categorias hiperesféricas • Converge mais rápido que FCM • Forte tendência a convergir para mínimos locais • Categorias pouco representam as classes
K-NN e K-NN nebuloso • Métodos de Classificação • Classes identificadas por padrões • Classifica pelos k vizinhos mais próximos • Conhecimento a priori das classes do problema • Não se restringe à uma distribuição específica das amostras
Classe 2 Classe 1 Classe 3 w4 w2 w5 w3 w13 w9 w14 w1 w10 w8 w7 w6 w11 w12 Classe 4 Classe 5 K-NN Rígido
Classe 2 Classe 1 Classe 3 w2 w4 w5 w13 w9 w1 w14 w3 w10 w8 w7 w6 w11 w12 Classe 4 Classe 5 K-NN Nebuloso
Validity Measures • Used to find the ideal number of clusters that represent the sample space. • Number of classes unknown • Number of classes Number of clusters
Validity Measures • Applied to the partitions generated by the clustering algorithm • Measure the quality of the partitions • Crisp or Fuzzy
Coeficiente de Partição – F • Medida de Validação Nebulosa • Maximizar – 1/c F 1 • Diretamente influenciada pelo • Número de categorias e Sobreposição das classes
Compacidade e Separação – CS • Medida de Validação Nebulosa • Minimizar – 0 CS • Avalia diferentes funções objetivo
Compacidade e Separação – CS • Mede: • O grau de separação entre as categorias • A compacidade das categorias • Não sofre influência da sobreposição das categorias • Maior taxa de acertos dentre as medidas de validação estudadas
Discriminante Linear de Fisher - FLD • Crisp Validity Measure • Measures the compactness and separation of the partitions produced by crisp clustering techniques • Between-Class Scatter Matrix – SB • Within-Class Scatter Matrix Scatter – SW
Discriminante Linear de Fisher - FLD • Critério J – Maximizado
Indicadores de Validade • Calculam o grau de separação entre as categorias • Menor a sobreposição das categorias melhor a categorização obtida • MinRF, MaxRF e MinNMMcard
Propostas EFLD ICC Sistema ICC-KNN
EFLD • Extended Fisher Linear Discriminant • Capable of validate crisp and fuzzy clusters
EFLD • Extended between-classes scatter matrix • mei is the centroid of cluster i and
EFLD • Extended within-class scatter matrix • Extended total scatter matrix
EFLD • It can be proved that if the sum of all membership values of any element is equal to one then the total scattering is independent of the partition
EFLD • Extended Fisher Linear Discriminant • Determinants impose limits on the minimum number of points of each cluster • Trace - faster • No limitations due to the number of points
EFLD – Otimização • Matrix traces are the product of a column vector by its transpose • Trace is equal to the square of the module of this vector
EFLD – Improving • Sum of both traces (SBe and Swe) is constant • sT is evaluated only once • Calculating sBe is faster than sWe
EFLD – Improving • So EFLD can be rewritten as • Faster to evaluate • Find the maximum value of Je
EFLD – testing • Three classes, 500 point each • X1 – (1,1), (6,1), (3,5, 7) with Std 0,3 • X2 – (1,5, 2,5), (4,5, 2,5), (3,5, 4,5) with Std 0,7 • Apply FCM to m = 2 and c = 2 ...6
EFLD – Aplication • For superposed classes, Je, like J (FLD), is not a good measure • Behaviour similar to FLD
EFLD – Aplication Alocação errônea dos centros Mínimo local = Ponto médio do conjunto de pontos Je extremamente pequeno = 9,8010 x 10-5
ICC – Inter Class Contrast • EFLD • Increases as the number of clusters rises. • Increases when classes have high degree of overlapping. Reaches maximum for a wrong number of clusters.
ICC • Evaluates a crisp and fuzzy clustering algorithms • Measures: • Partition Compactness • Partition Separation • ICC must be Maximized
ICC • sBe – estimates the quality of the placement of the centres. • 1/n – scale factor • Compensates the influence of the number of points in sBe
ICC • Dmin – minimum Euclidian distance between all pairs of centres • Neutralizes the tendency of sBe to grow, avoiding the maximum being reached for a number of clusters greater than the ideal value. • When 2 or more clusters represent a class – Dmin decreases abruptly
ICC • – square root of the number of clusters • Avoids the maximum being reached for a number of clusters below the ideal. • When 1 cluster represents two or more classes - Dmin increases
ICC – Fuzzy Application • Five classes with 500 points each • No class overlapping • X1 – (1,2), (6,2), (1, 6), (6,6), (3,5, 9) Std 0,3 • Apply FCM for m = 2 and c = 2 ...10
ICC – Fuzzy Application • Five classes with 500 points each • High cluster overlapping • X1 – (1,2), (6,2), (1, 6), (6,6), (3,5, 9) Std 0,3 • Apply FCM for m = 2 and c = 2 ...10