1 / 25

k-NN e Funções de Dissimilaridade

k-NN e Funções de Dissimilaridade. Tiago Buarque <tbac@cin.ufpe.br>. Roteiro. Motivação Definições k-NN Funções de Dissimilaridade Entre atributos numéricos Entre atributos categóricos Funções de disssililaridade heterogênias Testes Referências. Motivação. NCM [Wang 2006]

natara
Download Presentation

k-NN e Funções de Dissimilaridade

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. k-NN eFunções de Dissimilaridade Tiago Buarque <tbac@cin.ufpe.br>

  2. Roteiro • Motivação • Definições • k-NN • Funções de Dissimilaridade • Entre atributos numéricos • Entre atributos categóricos • Funções de disssililaridade heterogênias • Testes • Referências

  3. Motivação • NCM [Wang 2006] • Funções de Distância • Problema não resolvido • Grande aplicabilidade • Aprendizagem de Máquina • Classificadores • IBL • k-NN • Redes Neurais • RBF • Kohonen • Agrupamento • k-means

  4. Definições • Base de dados • Conjunto de elementos • Elemento ou instância (E) • E = {v, c} • v, é um vetor de atributos • c, classe • Classificador • C(v) = c • C : dom(v) dom(c)

  5. Definições [2] • Atributo (vetor de atributos) • Nominal ou Categórico • Ordinal • Intervalar • Racional ou Numérico • Funções de Dissimilaridade

  6. Tipos de Dados • Domínio da Base de Dados • Vetor de atributos com n elementos • Posição a, 1 ≤ a ≤ n, do vetor tem o mesmo tipo para todos os elementos da base • Se a é categórico, existe dom(a) • Todos os possíveis valores no conjunto de treino • Se a é numérico, existe max(a) e min(a) • O máximo e o mínimo assumido por esse atributo entres os elementos da base de treinamento

  7. k-NN • k-Nearest Neighbor • Regras de classificação • Sem peso • Maioria nos votos • Com peso • Peso pela distância • Energia • Perda de energia

  8. kNN – Algoritmo • classifique(elemento X, int k) • Calcule a distância de X para cada elemento da base de treinamento • Ordene os elementos a partir da menor distância a X • Selecione os k mais próximos de X • Use uma regra de classificação X • Maioria na votação • Peso pela distância • Influência por perda de energia*

  9. Funções de Distância • Distâncias • entre valores numéricos • Euclidiana, • entre valores categóricos • Hamming, vdm • Distâncias entre um vetor de atributos • Cada atributo é um valor • Distância entre cada atributo • Atributos categóricos e numéricos (heterogêneos) • Distâncias Heterogêneas • HEOM, HVDM, DVDM,IVDM, NCM (e variações)

  10. Distância Euclidiana Euclidiana Normalizada Manhattan (city-block) Chebychev Camberra Distância entreVetores de Atributos Numéricos

  11. Distância entreVetores de Atributos Categóricos • Distância de Hamming • VDM –Value Difference Metric • Semelhança entre as distribuições das classes

  12. Distâncias Heterogenias • Combinação de distância entre atributos • Normalização das distância entre atributos • HEOM • Heterogeneous Euclidian-Overlap Metric • HVDM • Heterogeneous Value Difference Metric • DVDM • Discretized Value Difference Metric • IVDM • Interpolated Value Difference Metric • NCM + variações • Neighborhood Counting Measure

  13. HEOM • Heterogeneous Euclidian-Overlap Metric • Atributos Numéricos • Distância Euclidiana • Atributos Categóricos • Overlap – Distâncias de Hamming

  14. HVDM • Heterogeneous Value Difference Metric • Atributos Numéricos • Distância Euclidiana • Atributos Categóricos • VDM

  15. DVDM • Discretized Value Difference Metric • Atributos Numéricos ou Categóricos • VDM

  16. IVDM • Interpolated Value Difference Metric • Atributos Numéricos • VDM – interpolado • Atributos Categóricos • VDM

  17. NCM • Neighborhood Counting Measure • Medida de similaridade • Mais vizinhanças  mais semelhantes

  18. NCM • Contando vizinhanças

  19. NCM • Medidas de distância

  20. Testes[1/2] • 10-fold cross validation [3] • 10 vezes • Bases • UCI Repository • kNN • k • Função de distância • Regra de classificação • RBF • Função de disttância

  21. Testes

  22. Resultados • k-NN (média nas 14 bases) • Três regras: sem peso[sp], com peso[cp], energia[en] • k = 1, 6, 11, 16, 21, 31, max

  23. Resultados • VDM • Categóricos • NCM2 • Numéricos

  24. Conclusão • Comportamento das funções de distância • Base de dados • Algoritmo • parâmetros • Um classificador que utilize funções de distância pode melhorar usando uma função de distância diferente • As funções de distância apresentadas podem ser combinadas para se adaptar mais ainda à base de dados

  25. Referências • Tiago Buarque, Um estudo sobre Funções de Distância Aplicadas a Algoritmos de Aprendizagem de Máquina,Trabalho de Graduação CIn 2007.1 • Hui Wang, “Nearest Neighbor by Neighborhood Counting”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.28, no.6, pp. 942-953, june 2006 • D. R. Wilson and T. R. Martinez, “Improved Heterogeneous Distance Functions”, J. Artificial Intelligence Research, vol.6, pp.1-34,1997. • UCI Machine Learning Repository, http://www.ics.uci.edu/~mlearn/MLRepository.html, acesso em 2007

More Related