230 likes | 307 Views
Estudo de Benefícios e Custos de Algoritmos para Seleção de Características. Eduardo Mendel do Nascimento Estefhan Dazzi Wandekokem. Classificação (1) .
E N D
Estudo de Benefícios e Custos de Algoritmos para Seleção de Características Eduardo Mendel do NascimentoEstefhan Dazzi Wandekokem
Classificação (1) • Descoberta automatizada de padrões de semelhança entre dados, dando à máquina a capacidade de associar um padrão, na forma de um vetor multidimensal, a uma dentre algumas classes distintas pré-definidas. • Base de treino: especialistas humanos introduzem conhecimento no sistema com o uso de um conjunto de dados rotulados (base de treino). • Uma observação do ambiente (um padrão) é mapeado matematicamente como uma variável multidimensional contínua ou discreta (uma característica), assim padrões são representados como pontos (rotulados ou não) no espaço de características.
Classificação (2) • À medida os padrões rotulados são introduzidos, regiões distintas do espaço de características passam a se associar mais fortemente a uma classe do que a outra. • O processo de classificação então consiste na criação de um mapeamento entre cada região do espaço de características e a classe à qual essa região está associada. • Espera-se uma generalização eficiente, a fim de se minimizar o erro de classificação em novos e desconhecidos dados apresentados ao classificador (base de teste).
Classificador Support Vector Machine (1) • Num problema de classificação com duas classes, espera-se que os padrões pertencentes a cada uma das classes residam em regiões distintas e separáveis. • Um problema é linearmente separável se é possível a construção de um hiperplano separador que separa integralmente os exemplos de cada classe. • Num espaço de características com dimensão D, esse hiperplano será a equação de um plano no espaço D-1, por exemplo uma reta em duas dimensões.
Classificador Support Vector Machine (3) • A separabilidade linear no espaço de características só ocorre em casos triviais, e uma alternativa para contornar sua ausência é o uso de mapeamento matemático. • As variáveis dimensionais podem ser combinadas matematicamente ou simplesmente replicadas a fim de gerar novas variáveis de um novo espaço, numa nova configuração de pontos. • Classificador SVM: usa um mapeamento fixado pelo usuário para mapear cada dado analisado, e usando os dados de treino, constrói um hiperplano separador com margem de separação máxima, usado então para classificar exemplos desconhecidos. • Exemplos errados são penalizados.
Classificador Support Vector Machine (3) • A separabilidade linear no espaço de características só ocorre em casos triviais, e uma alternativa para contornar sua ausência é o uso de mapeamento matemático. • As variáveis dimensionais podem ser combinadas matematicamente ou simplesmente replicadas a fim de gerar novas variáveis de um novo espaço, numa nova configuração de pontos. • Classificador SVM: usa um mapeamento fixado pelo usuário para mapear cada dado analisado, e usando os dados de treino, constrói um hiperplano separador com margem de separação máxima, usado então para classificar exemplos desconhecidos. • Exemplos errados são penalizados.
Processo de avaliação • Na validação independente, há bases distintas denominadas de treino (usada para ajustar os parâmetros do modelo do classificador) e de teste (usada para medir o desempenho do classificador). • Muitas vezes, deseja-se saber o desempenho baseado numa única base, usada portanto para treinar e validar. • A validação cruzada possibilita a obtenção desse valor de qualidade. Inicialmente, a base é dividida aleatoriamente em um número pré-especificado de sub-bases com iguais quantidades de elementos. • Então, cada um desses conjuntos é usado como base de teste, sendo a base de treino correspondente formada pela união dos conjuntos remanescentes. Ao final, cada dado da base estará associado a uma classe, e é possível tomar, por exemplo, a taxa de acerto nessa base.
Análise ROC • No gráfico ROC o eixo x representa a taxa de falso positivo (fpr) e o eixo y a taxa de verdadeiro positivo (tpr)
Análise ROC • Cada ponto no gráfico representa um classificador
Análise ROC • Curva ROC • Métrica: AUC (area under curve) • Valor de score associado a cada exemplo • Probabilidade a posteriori da classe positiva • Dado um threshold, o classificador pode usar o score para determina a qual classe o exemplo pertence
Seleção de Características (1) • A geração das características que descrevem um padrão pode ser um processo computacional baseado numa observação menos abstrata do ambiente, por exemplo, o mapeamento que ocorre entre uma imagem observada e as características usadas para descrevê-la. • Seleção de características é uma etapa anterior ao processo de treinamento do classificador que tem como objetivo retirar algumas características que são irrelevantes ou danosas ao processo de classificação. • Dessa forma, busca-se por um conjunto ótimo de características que maximiza o desempenho do classificador.
Seleção de Características (2) • Busca exaustiva é inviável já que a quantidade de subconjuntos diferentes com K características, tomado de um conjunto total composto por N, resulta em C(N,K) subconjuntos distintos. • Dessa forma, devem ser usadas heurísticas a fim de explorar o espaço de busca, visualizado como composto por um número de dimensões igual ao total de características, cada dimensão dessas consistindo numa variável binária que indica o uso ou não dessa característica. • Best Features (BF) avalia individualmente cada característica, utilizando-a para treinar completamente um classificador, e a qualidade da característica vem desse desempenho. Útil para análise inicial, mas não considera inter-dependências entre as características.
Sequential Forward Selection (SFS) • Heurística gulosa de seleção, com um caráter sequencial e unidirecional. • SFS inicia o conjunto das características selecionadas como composto somente por aquela determinada como a melhor por BF. Então, a cada etapa, determina qual das características ainda não selecionadas deve ser acrescentada ao conjunto, e assim acrescenta uma a uma até que a quantidade final de selecionadas seja alcançada. • Na determinação de qual característica deve ser incluída, o algoritmo avalia o desempenho de cada classificador construído com o uso de um conjunto de características igual ao atualmente selecionado acrescido de cada característica não-selecionada em teste, de forma que a selecionada seja aquela que maximizar o desempenho.
Sequential Forward Floating Selection (SFFS) (1) • Evolução natural do SFS. • Espera-se melhorar a busca possibilitando a remoção de uma característica anteriormente escolhida para fazer parte do conjunto das selecionadas. • Para cada conjunto de características obtido com a exclusão de cada uma das características selecionadas, a qualidade pode ser estimada via o treino de um classificador e sua avaliação por validação cruzada. • Se a qualidade de classificação aumentar em relação ao conjunto original (com a característica incluída), ela é uma potencial candidata a ser excluída. A característica excluída será então aquela que possibilitar o maior ganho com sua remoção.
Sequential Forward Floating Selection (SFFS) (2) • O processo de remoção de características prossegue, enquanto houver ganho de qualidade com a remoção de alguma característica. • Quando não houver esse ganho, ocorre então a inclusão de uma única característica ao conjunto das selecionadas, e novamente cada característica desse conjunto é investigada a fim de se determinar se alguma deve ser removida. • Deve existir um mecanimo para evitar loops de inclusão e posterior exclusão das mesmas características.
Estudo da Detecção de Desalinhamento (1) • Base de dados reais obtida de motobombas em operação. • 945 dados com 70 características, distribuição de classe aproximadamente 50%/50%. • O desalinhamento refere-se a problemas no acoplamento entre o eixo do motor e o eixo da bomba, ocorrendo quando esses eixos estão orientados paralelamente e não coincidem (desalinhamento paralelo), ou quando não estão orientados paralelamente e coincidem (desalinhamento angular). • Assinatura característica de alta vibração nas freqüências das harmônicas 1x, 2x e 3x, nas direções radiais e axial. • Características extraídas: energia (RMS) em bandas de frequência específicas do sinal de vibração da máquina, obtido de um acelerômetro.
Estudo do Elemento Emissor de Sonar (1) • Base de dados obtida da Internet. • 208 dados com 60 características, distribuição de classe aproximadamente 50%/50%. • A tarefa consiste em treinar um classificador para discriminar entre sinais de sonar emitidos de um cilindro metálico daqueles emitidos de uma rocha. • Características extraídas: energia (RMS) em bandas de frequência específicas do sinal sonoro.