580 likes | 663 Views
Seleção de Características através de Nearest Shrunken Centroids. Diego Ricardo de Araujo Departamento de ciência da computação Instituto de ciência exatas Universidade federal de juiz de fora.
E N D
Seleção de Características através de Nearest Shrunken Centroids Diego Ricardo de Araujo Departamento de ciência da computação Instituto de ciência exatas Universidade federal de juiz de fora
IntroduçãoClassificação de DadosSeleção de CaracterísticasSistema InteligenteTestes Comparativos Resultados Considerações Finais
Descoberta de Conhecimento em Bases de Dados • Crescente fluxo de dados • Dados coletados e acumulados rapidamente • Transformação de informação em conhecimento útil
Descoberta de Conhecimento em Bases de Dados • Pré-processamento: dados preparados para mineração • Mineração de dados: extração de conhecimento através de métodos inteligentes • Avaliação • Apresentação: representação e visualização do conhecimento para o usuário
Mineração de Dados • Análise de grandes base de dados • Extração de padrões de interesse do modelo de dados • Conjunto de dados • Domínio de conhecimento • Métodos de mineração • Avaliação de padrões
IntroduçãoClassificação de DadosSeleção de CaracterísticasSistema InteligenteTestes Comparativos Resultados Considerações Finais
Processo de classificação • Treinamento • Aprendizado de conhecimento a partir de amostras com classes conhecidas
Processo de classificação • Teste • Avaliação do conhecimento descoberto pelo treinamento através da predição de classe de amostras desconhecidas
Avaliação dos Métodos de Classificação • Acurácia: índice de exatidão de classificação de amostras desconhecidas • Desempenho: velocidade e custo computacional referente a utilização do classificador
Avaliação dos Métodos de Classificação • Robustez: capacidade de realizar predições corretas a partir de conjuntos de dados com amostras incompletas ou com ruído • Escalabilidade: eficiência do modelo de conhecimento a partir de uma grande quantidade de dados • Interpretabilidade: compreensão do modelo de conhecimento extraído do modelo de dados
Método NearestCentroid • Centróide • Centro de distribuição de um conjunto de amostras • Amostras de treinamento: centróide geral • Amostras de determinada classe: centróide de classe
Método NearestCentroid • Matematicamente • Seja um espaço p-dimensional, sendo p o numero de atributos i = 1, 2, ... , p presentes num conjunto de dados composto de n amostras j = 1, 2, ... , n • xija expressão do i-ésimo atributo da amostra j. Cada amostra está associada a uma classe k, pertencente a um conjunto discreto de K classes, Ck = (1, 2, ... ,K) • A cada classe k, estão associadas nkamostras que compõem o modelo de dados.
Método NearestCentroid • Matematicamente • O i-ésimo componente dos centróides • Geral • De classe
Método NearestCentroid • Função de distância • Sendo • Classificação
IntroduçãoClassificação de DadosSeleção de CaracterísticasSistema InteligenteTestes Comparativos Resultados Considerações Finais
Seleção de Características • Teoria • Maior quantidade de atributos: maior poder de discernimento • Prática • Informações irrelevantes confundem e retardam os sistemas de aprendizado
Seleção de Características • Motivação • Existência de bases de dados com alto nível dimensional que acarretam alto custo computacional (baixo desempenho) e/ou pouca acurácia no processo de mineração de dados
Seleção de Características • Eliminação de atributos irrelevantes/redundantes do modelo de dados • Busca da melhoria do processo de descoberta de conhecimento
Método Nearest Shrunken Centroid • Distância estatística • Sendo
Método Nearest Shrunken Centroid • Função de limiarização suave
Método Nearest Shrunken Centroid • Dessa forma • Se dado atributo i, ∃∆ tal que ∀k tem-se d’ik = 0, então o i-ésimo componente dos centróides são eliminados pois não interferem na tarefa de classificação
IntroduçãoClassificação de DadosSeleção de CaracterísticasSistema InteligenteTestes Comparativos Resultados Considerações Finais
Sistema Inteligente • File: arquivo físico da base de dados • *.arff • *.dat • Sample: amostra da base de dados. Composta por seus atributos (values) e identificada por sua classe
Sistema Inteligente • DataBase: representação da base de dados. Composta de um conjuntos de amostras (samples) • Centroid: centróide de um conjunto de amostras
Sistema Inteligente • NearestCentroidClassifier: classificador NSC • Conjunto de treinamento: trainingSet • Conjunto de teste: testSet • Centróides de classe: classCentroids • Centróide geral: overallCentroids • Classificação de amostra: classify(sample)
Sistema Inteligente • Shrinker • Seleção de características • Realiza a redução dos centróides • shrinkCentroids() • NearestCentroidClassifier • searchDelta() • crossValidation() de kfolds
IntroduçãoClassificação de DadosSeleção de CaracterísticasSistema InteligenteTestes Comparativos ResultadosConsiderações Finais
Metodologia • Sub-divisão das bases de dados • Testes de classificação • 75% conjunto de treinamento • 25% conjunto de teste • Seleção de características • Dados originais • Dados reduzidos
Metodologia • Validação Cruzada
Metodologia • Validação Cruzada • Neste trabalho convencionou-se a utilização de validação cruzada de 10 folhas como ponto de partida para o processo de avaliação de classificação
Metodologia • Bases de dados utilizadas • Breast • Colon • Glasses • Iris • Leukemia • Lymphoma • Prostate
Metodologia • Classificadores utilizados • NSC • Weka: suíte de mineração de dados • Naive-Bayes • SMO • MultilayerPerceptron • J48 • Random Forest