1 / 23

Estudo de Benefícios e Custos de Algoritmos para Seleção de Características

Estudo de Benefícios e Custos de Algoritmos para Seleção de Características. Eduardo Mendel do Nascimento Estefhan Dazzi Wandekokem. Classificação (1) ‏.

Download Presentation

Estudo de Benefícios e Custos de Algoritmos para Seleção de Características

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Estudo de Benefícios e Custos de Algoritmos para Seleção de Características Eduardo Mendel do NascimentoEstefhan Dazzi Wandekokem

  2. Classificação (1)‏ • Descoberta automatizada de padrões de semelhança entre dados, dando à máquina a capacidade de associar um padrão, na forma de um vetor multidimensal, a uma dentre algumas classes distintas pré-definidas. • Base de treino: especialistas humanos introduzem conhecimento no sistema com o uso de um conjunto de dados rotulados (base de treino). • Uma observação do ambiente (um padrão) é mapeado matematicamente como uma variável multidimensional contínua ou discreta (uma característica), assim padrões são representados como pontos (rotulados ou não) no espaço de características.

  3. Classificação (2)‏ • À medida os padrões rotulados são introduzidos, regiões distintas do espaço de características passam a se associar mais fortemente a uma classe do que a outra. • O processo de classificação então consiste na criação de um mapeamento entre cada região do espaço de características e a classe à qual essa região está associada. • Espera-se uma generalização eficiente, a fim de se minimizar o erro de classificação em novos e desconhecidos dados apresentados ao classificador (base de teste).

  4. Classificador Support Vector Machine (1)‏ • Num problema de classificação com duas classes, espera-se que os padrões pertencentes a cada uma das classes residam em regiões distintas e separáveis. • Um problema é linearmente separável se é possível a construção de um hiperplano separador que separa integralmente os exemplos de cada classe. • Num espaço de características com dimensão D, esse hiperplano será a equação de um plano no espaço D-1, por exemplo uma reta em duas dimensões.

  5. Classificador Support Vector Machine (2)‏

  6. Classificador Support Vector Machine (3)‏ • A separabilidade linear no espaço de características só ocorre em casos triviais, e uma alternativa para contornar sua ausência é o uso de mapeamento matemático. • As variáveis dimensionais podem ser combinadas matematicamente ou simplesmente replicadas a fim de gerar novas variáveis de um novo espaço, numa nova configuração de pontos. • Classificador SVM: usa um mapeamento fixado pelo usuário para mapear cada dado analisado, e usando os dados de treino, constrói um hiperplano separador com margem de separação máxima, usado então para classificar exemplos desconhecidos. • Exemplos errados são penalizados.

  7. Classificador Support Vector Machine (4)‏

  8. Classificador Support Vector Machine (3)‏ • A separabilidade linear no espaço de características só ocorre em casos triviais, e uma alternativa para contornar sua ausência é o uso de mapeamento matemático. • As variáveis dimensionais podem ser combinadas matematicamente ou simplesmente replicadas a fim de gerar novas variáveis de um novo espaço, numa nova configuração de pontos. • Classificador SVM: usa um mapeamento fixado pelo usuário para mapear cada dado analisado, e usando os dados de treino, constrói um hiperplano separador com margem de separação máxima, usado então para classificar exemplos desconhecidos. • Exemplos errados são penalizados.

  9. Processo de avaliação • Na validação independente, há bases distintas denominadas de treino (usada para ajustar os parâmetros do modelo do classificador) e de teste (usada para medir o desempenho do classificador). • Muitas vezes, deseja-se saber o desempenho baseado numa única base, usada portanto para treinar e validar. • A validação cruzada possibilita a obtenção desse valor de qualidade. Inicialmente, a base é dividida aleatoriamente em um número pré-especificado de sub-bases com iguais quantidades de elementos. • Então, cada um desses conjuntos é usado como base de teste, sendo a base de treino correspondente formada pela união dos conjuntos remanescentes. Ao final, cada dado da base estará associado a uma classe, e é possível tomar, por exemplo, a taxa de acerto nessa base.

  10. Análise ROC • No gráfico ROC o eixo x representa a taxa de falso positivo (fpr) e o eixo y a taxa de verdadeiro positivo (tpr)‏

  11. Análise ROC • Cada ponto no gráfico representa um classificador

  12. Análise ROC • Curva ROC • Métrica: AUC (area under curve) • Valor de score associado a cada exemplo • Probabilidade a posteriori da classe positiva • Dado um threshold, o classificador pode usar o score para determina a qual classe o exemplo pertence

  13. Análise ROC

  14. Análise ROC

  15. Seleção de Características (1)‏ • A geração das características que descrevem um padrão pode ser um processo computacional baseado numa observação menos abstrata do ambiente, por exemplo, o mapeamento que ocorre entre uma imagem observada e as características usadas para descrevê-la. • Seleção de características é uma etapa anterior ao processo de treinamento do classificador que tem como objetivo retirar algumas características que são irrelevantes ou danosas ao processo de classificação. • Dessa forma, busca-se por um conjunto ótimo de características que maximiza o desempenho do classificador.

  16. Seleção de Características (2)‏ • Busca exaustiva é inviável já que a quantidade de subconjuntos diferentes com K características, tomado de um conjunto total composto por N, resulta em C(N,K) subconjuntos distintos. • Dessa forma, devem ser usadas heurísticas a fim de explorar o espaço de busca, visualizado como composto por um número de dimensões igual ao total de características, cada dimensão dessas consistindo numa variável binária que indica o uso ou não dessa característica. • Best Features (BF) avalia individualmente cada característica, utilizando-a para treinar completamente um classificador, e a qualidade da característica vem desse desempenho. Útil para análise inicial, mas não considera inter-dependências entre as características.

  17. Sequential Forward Selection (SFS)‏ • Heurística gulosa de seleção, com um caráter sequencial e unidirecional. • SFS inicia o conjunto das características selecionadas como composto somente por aquela determinada como a melhor por BF. Então, a cada etapa, determina qual das características ainda não selecionadas deve ser acrescentada ao conjunto, e assim acrescenta uma a uma até que a quantidade final de selecionadas seja alcançada. • Na determinação de qual característica deve ser incluída, o algoritmo avalia o desempenho de cada classificador construído com o uso de um conjunto de características igual ao atualmente selecionado acrescido de cada característica não-selecionada em teste, de forma que a selecionada seja aquela que maximizar o desempenho.

  18. Sequential Forward Floating Selection (SFFS) (1)‏ • Evolução natural do SFS. • Espera-se melhorar a busca possibilitando a remoção de uma característica anteriormente escolhida para fazer parte do conjunto das selecionadas. • Para cada conjunto de características obtido com a exclusão de cada uma das características selecionadas, a qualidade pode ser estimada via o treino de um classificador e sua avaliação por validação cruzada. • Se a qualidade de classificação aumentar em relação ao conjunto original (com a característica incluída), ela é uma potencial candidata a ser excluída. A característica excluída será então aquela que possibilitar o maior ganho com sua remoção.

  19. Sequential Forward Floating Selection (SFFS) (2)‏ • O processo de remoção de características prossegue, enquanto houver ganho de qualidade com a remoção de alguma característica. • Quando não houver esse ganho, ocorre então a inclusão de uma única característica ao conjunto das selecionadas, e novamente cada característica desse conjunto é investigada a fim de se determinar se alguma deve ser removida. • Deve existir um mecanimo para evitar loops de inclusão e posterior exclusão das mesmas características.

  20. Estudo da Detecção de Desalinhamento (1)‏ • Base de dados reais obtida de motobombas em operação. • 945 dados com 70 características, distribuição de classe aproximadamente 50%/50%. • O desalinhamento refere-se a problemas no acoplamento entre o eixo do motor e o eixo da bomba, ocorrendo quando esses eixos estão orientados paralelamente e não coincidem (desalinhamento paralelo), ou quando não estão orientados paralelamente e coincidem (desalinhamento angular). • Assinatura característica de alta vibração nas freqüências das harmônicas 1x, 2x e 3x, nas direções radiais e axial. • Características extraídas: energia (RMS) em bandas de frequência específicas do sinal de vibração da máquina, obtido de um acelerômetro.

  21. Estudo da Detecção de Desalinhamento (2)‏

  22. Estudo do Elemento Emissor de Sonar (1)‏ • Base de dados obtida da Internet. • 208 dados com 60 características, distribuição de classe aproximadamente 50%/50%. • A tarefa consiste em treinar um classificador para discriminar entre sinais de sonar emitidos de um cilindro metálico daqueles emitidos de uma rocha. • Características extraídas: energia (RMS) em bandas de frequência específicas do sinal sonoro.

  23. Dúvidas?

More Related