150 likes | 221 Views
Uso da Seleção de Protótipos Para Otimizar a Classificação Baseada em Dissimilaridade. Felipe Soares Queiroga ( fsq ). Motivação. Objetos “Similares” podem sem agrupados com intuito de formar uma classe, uma “classe” nada mais é que um conjunto de objetos “similares”. [KIMA, 2006].
E N D
Uso da Seleção de Protótipos Para Otimizar a Classificação Baseada em Dissimilaridade Felipe Soares Queiroga (fsq)
Motivação • Objetos “Similares” podem sem agrupados com intuito de formar uma classe, uma “classe” nada mais é que um conjunto de objetos “similares”. [KIMA, 2006]
Objetivos • Dois Principais objetivos do Artigo: • Utilizar um PRS como uma ferramenta para minimizar o número de amostras que serão utilizados pela DBC. • Utilizar a medida de distância de Mahalanobis, associada com o algoritmo de PRS, para obter uma vantagem distinta ao implementar uma DBC.
PrototypeReductionSchemes(PRS) • O que é: • Um Método de seleção de vetores de protótipos necessários para a representação de dissimilaridade. • Usado Para: • Reduzir a Base de Treinamento a Protótipos • Reduzir os Custos de computar, armazenar e processar toda a base de Treinamento.
PRS’s Utilizados • Random: • Seleção Randômica de m Amostras a partir do Conjunto de Treinamento. • Método Mais Simples • Riscos: Como a Escolha é Aleatória, pode resultar em uma seleção de protótipos desbalanceada Espaço de Seleção de Protótipos com a técnica Random [Duin, 2004].
PRS’s Utilizados • RandomC: • Seleção Randômica de mi Amostras por classe w Existente no Conjunto de Treinamento T • Soluciona o Problema de se Ter Classes Desbalanceadas que Tivemos com a Técnica Random. Espaço de Seleção de Protótipos com a técnica RandomC [Duin, 2004].
PRS’s Utilizados • KCentres: • Seleciona randomicamente mi Amostras por Classe wi Existente no Conjunto de Treinamento T. • Separa as instâncias de cada classe de acordo com a proximidade de cada protótipo. • Calcula o centro para cada conjunto.Objeto cuja distância para os outros da classe é o valor mínimo. • Para cada centro, se o centro for diferente, o protótipo é substituído pelo centro e retorna para o passo 2 Espaço de Seleção de Protótipos com a técnica KCentres [Duin, 2004].
Medidas de Dissimilaridade • Medida Utilizada Para Quantificar a Dissimilaridade Entre Dois Vetores. • No andamento do projeto, foram implementadas quatro formas diferentes no cálculo das dissimilaridades.
Dissimilaridade Usadas • Norma de City Block: • Norma Euclidiana: • Norma Max: • Norma de Minkowski:
Matriz de Dissimilaridade • Após Selecionarmos Protótipos e definirmos a medida de dissimilaridade, podemos construir a Matriz de Dissimilaridade:
Classificação • Reduzir d Dimensão da Matriz de Dissimilaridade:
Exemplo: Exemplo de um Espaço de Dissimilaridade 2D classificador por um sub-Conjunto de dígitos escritos a mão (3 e 8). A Representação da Dissimilaridade D(T, R) é baseada na Distância Euclidiana entre as imagens binárias com suavização Gaussin. [Duin, 2004] R é escolhido randomicamente e consiste de dois exemplos, um de cada digito. [Duin, 2004]
Resultados: • Utilização Do Classificador Desenvolvido Sobre a Base Ionosphere do UCI.
Referências: • [Duin, 1997] R.P.W. Duin, D. Ridder and D.M.J. Tax, Experiments with a featureless approach to pattern recognition, Pattern Recognition Lett.18 (1997), pp. 1159–1166. • [Duin, 2004] R.P.W. Duin, E. Pekalska and PavelPaclok. Prototype Selection for Dissimilarity-based Classifiers (2004). • [KIMA, 2006] Sang-WoonKima and B. John Oommen. On using prototype reduction schemes to optimize dissimilarity-based classification. (2006).