1 / 58

Seleção de Características através de Nearest Shrunken Centroids

Seleção de Características através de Nearest Shrunken Centroids. Diego Ricardo de Araujo Departamento de ciência da computação Instituto de ciência exatas Universidade federal de juiz de fora.

virgil
Download Presentation

Seleção de Características através de Nearest Shrunken Centroids

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Seleção de Características através de Nearest Shrunken Centroids Diego Ricardo de Araujo Departamento de ciência da computação Instituto de ciência exatas Universidade federal de juiz de fora

  2. IntroduçãoClassificação de DadosSeleção de CaracterísticasSistema InteligenteTestes Comparativos Resultados Considerações Finais

  3. Descoberta de Conhecimento em Bases de Dados • Crescente fluxo de dados • Dados coletados e acumulados rapidamente • Transformação de informação em conhecimento útil

  4. Descoberta de Conhecimento em Bases de Dados • Pré-processamento: dados preparados para mineração • Mineração de dados: extração de conhecimento através de métodos inteligentes • Avaliação • Apresentação: representação e visualização do conhecimento para o usuário

  5. Mineração de Dados • Análise de grandes base de dados • Extração de padrões de interesse do modelo de dados • Conjunto de dados • Domínio de conhecimento • Métodos de mineração • Avaliação de padrões

  6. Mineração de Dados

  7. IntroduçãoClassificação de DadosSeleção de CaracterísticasSistema InteligenteTestes Comparativos Resultados Considerações Finais

  8. Processo de classificação • Treinamento • Aprendizado de conhecimento a partir de amostras com classes conhecidas

  9. Processo de classificação • Teste • Avaliação do conhecimento descoberto pelo treinamento através da predição de classe de amostras desconhecidas

  10. Avaliação dos Métodos de Classificação • Acurácia: índice de exatidão de classificação de amostras desconhecidas • Desempenho: velocidade e custo computacional referente a utilização do classificador

  11. Avaliação dos Métodos de Classificação • Robustez: capacidade de realizar predições corretas a partir de conjuntos de dados com amostras incompletas ou com ruído • Escalabilidade: eficiência do modelo de conhecimento a partir de uma grande quantidade de dados • Interpretabilidade: compreensão do modelo de conhecimento extraído do modelo de dados

  12. Método NearestCentroid • Centróide • Centro de distribuição de um conjunto de amostras • Amostras de treinamento: centróide geral • Amostras de determinada classe: centróide de classe

  13. Método NearestCentroid • Matematicamente • Seja um espaço p-dimensional, sendo p o numero de atributos i = 1, 2, ... , p presentes num conjunto de dados composto de n amostras j = 1, 2, ... , n • xija expressão do i-ésimo atributo da amostra j. Cada amostra está associada a uma classe k, pertencente a um conjunto discreto de K classes, Ck = (1, 2, ... ,K) • A cada classe k, estão associadas nkamostras que compõem o modelo de dados.

  14. Método NearestCentroid • Matematicamente • O i-ésimo componente dos centróides • Geral • De classe

  15. Método NearestCentroid • Função de distância • Sendo • Classificação

  16. IntroduçãoClassificação de DadosSeleção de CaracterísticasSistema InteligenteTestes Comparativos Resultados Considerações Finais

  17. Seleção de Características • Teoria • Maior quantidade de atributos: maior poder de discernimento • Prática • Informações irrelevantes confundem e retardam os sistemas de aprendizado

  18. Seleção de Características • Motivação • Existência de bases de dados com alto nível dimensional que acarretam alto custo computacional (baixo desempenho) e/ou pouca acurácia no processo de mineração de dados

  19. Seleção de Características • Eliminação de atributos irrelevantes/redundantes do modelo de dados • Busca da melhoria do processo de descoberta de conhecimento

  20. Método Nearest Shrunken Centroid • Distância estatística • Sendo

  21. Método Nearest Shrunken Centroid • Função de limiarização suave

  22. Método Nearest Shrunken Centroid • Dessa forma • Se dado atributo i, ∃∆ tal que ∀k tem-se d’ik = 0, então o i-ésimo componente dos centróides são eliminados pois não interferem na tarefa de classificação

  23. Shrunken Centroids

  24. IntroduçãoClassificação de DadosSeleção de CaracterísticasSistema InteligenteTestes Comparativos Resultados Considerações Finais

  25. Sistema Inteligente

  26. Sistema Inteligente • File: arquivo físico da base de dados • *.arff • *.dat • Sample: amostra da base de dados. Composta por seus atributos (values) e identificada por sua classe

  27. Sistema Inteligente • DataBase: representação da base de dados. Composta de um conjuntos de amostras (samples) • Centroid: centróide de um conjunto de amostras

  28. Sistema Inteligente • NearestCentroidClassifier: classificador NSC • Conjunto de treinamento: trainingSet • Conjunto de teste: testSet • Centróides de classe: classCentroids • Centróide geral: overallCentroids • Classificação de amostra: classify(sample)

  29. Sistema Inteligente • Shrinker • Seleção de características • Realiza a redução dos centróides • shrinkCentroids() • NearestCentroidClassifier • searchDelta() • crossValidation() de kfolds

  30. IntroduçãoClassificação de DadosSeleção de CaracterísticasSistema InteligenteTestes Comparativos ResultadosConsiderações Finais

  31. Metodologia • Sub-divisão das bases de dados • Testes de classificação • 75% conjunto de treinamento • 25% conjunto de teste • Seleção de características • Dados originais • Dados reduzidos

  32. Metodologia • Validação Cruzada

  33. Metodologia • Validação Cruzada • Neste trabalho convencionou-se a utilização de validação cruzada de 10 folhas como ponto de partida para o processo de avaliação de classificação

  34. Metodologia • Bases de dados utilizadas • Breast • Colon • Glasses • Iris • Leukemia • Lymphoma • Prostate

  35. Metodologia • Classificadores utilizados • NSC • Weka: suíte de mineração de dados • Naive-Bayes • SMO • MultilayerPerceptron • J48 • Random Forest

  36. Testes ComparativosPor Base de Dados

  37. Breast

  38. Colon

  39. Glasses

  40. Iris

  41. Leukemia

  42. Lymphoma

  43. Prostate

  44. Testes ComparativosPor Classificador

  45. NSC

  46. Naive-Bayes

  47. SMO

  48. MultilayerPerceptron

  49. J48

  50. Random Forest

More Related