260 likes | 359 Views
Seleção de Características. Seleção de Características. Objetivo : Dado um conjunto de medidas no espaço p-dimensional, selecionar entre as componentes deste vetor, t-dimensões que sejam as mais importantes para resolver o problema da classificação. x(1,2,3,...,100). y=x(2,7,23,54).
E N D
Seleção de Características • Objetivo: Dado um conjunto de medidas no espaço p-dimensional, selecionar entre as componentes deste vetor, t-dimensões que sejam as mais importantes para resolver o problema da classificação. x(1,2,3,...,100) y=x(2,7,23,54) Seleção decaracterísticas p=100-D t=4-D Ex.: IDM (Interclass Distance Measurement) TE073 – Processamento Digital de Sinais II
Extração de Características • Objetivo: Dado um conjunto de medidas no espaço p-dimensional, extrair destes dados informações que sejam realmente úteis para a classificação reduzindo para um vetor de t-dimensões. x(1,2,3,...,100) y(1,2,3,4) Seleção decaracterísticas p=100-D t=4-D Ex.: Técnicas de Processamento de Imagens/Voz Análise espectral PCA TE073 – Processamento Digital de Sinais II
Análise de Componentes Principais • Pearson (1901): Procurava linhas e planos que melhor se adequavam a um conjunto de pontos em um espaço p-dimensional. Criou a Componente Principal (PC) • Hotelling (1933): Procurava encontrar um pequeno conjunto de variáveis fundamentais que expressa p variáveis. Hotelling procurou maximizar suas ‘componentes’ no senso da variância das variáveis originais. Chamou de Componentes Principais. TE073 – Processamento Digital de Sinais II
Ambos, Pearson e Hotelling, esbarraram no problema dos autovetores (difícil de calcular para ordem > 4). • Como o PCA é mais eficiente para conjuntos de dados de alta ordem, não se viu muita aplicação. • O tema ficou em banho-maria até os anos 60, quando então surgiram os primeiros computadores capazes de resolver o problema dos autovetores de maneira rápida. • Karhunen e Loève aplicam PCA para codificação de sinais (KLT). TE073 – Processamento Digital de Sinais II
Desenvolvimento Matemático do PCA • A principal idéia por atrás do PCA é que: um número , p, de variáveis dependentes podem ser expressas como um número, t, de variáveis independentes, t<<p • Considere um conjunto infinito de vetores, x, no espaço N-dimensional. É sempre possível gerar uma combinação linear que mapeia x em um novo ponto y, em um espaço definido por variáveis ortonormais, ej, j=1,2,3..., TE073 – Processamento Digital de Sinais II
Sem perda de informação, x pode ser expresso como: • Se somente t dimensões são usadas, então teremos alguma perda de informação, e podemos estimar TE073 – Processamento Digital de Sinais II
Objetivo: Encontrar ej de modo que o erro da estimação seja minimizado. Juntamente com a minimização da Eq.3, precisamos garantir que o conjunto ejseja ortonormal TE073 – Processamento Digital de Sinais II
Substituindo Eq.1 e 2 na Eq. 3 Aplicando a condição de ortonormalidade de ej TE073 – Processamento Digital de Sinais II
Multiplicando ambos os lados da Eq. 1 por ejT Substituindo na Eq. 7 TE073 – Processamento Digital de Sinais II
Invertendo a ordem do somatório e operador Expectativa, e sabendo que ej é determinístico: Notando que a matriz entre colchetes é a Matriz de Autocorrelação do conjunto de vetores x Podemos, sem perda de generalidade, usar a Matriz de AutoCovariância TE073 – Processamento Digital de Sinais II
Logo a expressão que devemos minimizar é: de modo a encontrar a base ótima ej • Isso é feito derivando-se e igualando a zero. No entanto a derivada deve ser feita de modo que a condição da Eq. 4 (ortonormalidade), permaneça sendo cumprida TE073 – Processamento Digital de Sinais II
Este problema é resolvido através da definição de uma função de restrição g(ej), e usando a técnica dos Multiplicadores de Lagrange: Derivando a Eq. 13 e igualando a zero, temos: onde, I é matriz identidade TE073 – Processamento Digital de Sinais II
Problema dos Autovalores • A Eq. 15 é chamada de Problema dos Autovalores, usada em várias áreas.j é o j-ésimo autovalor associado ao autovetor ej Desde que a Eq. 15 corresponde a um sistema homogêneo de equações lineares e que possui uma solução não-trivial, o determinante da matriz de coeficientes deve ser ZERO. TE073 – Processamento Digital de Sinais II
Desenvolvendo a Eq. 16 o polinômio característico é obtido,as raízes deste polinômio são os autovalores j da matriz Cx. Como encontrar algebricamente as raízes de um polinômio de grau maior que 4 é complicado, usa-se métodos numéricos (HP) . TE073 – Processamento Digital de Sinais II
Matriz de Covariância • A matriz Rxx é conhecida como a matriz de Autocorrelação do conjunto de vetores x. Geralmente se retira o valor médio do conjunto de dados, de modo a definirmos a Matriz Covariância: o j-ésimo autovalor da matriz de covariância é igual à variância do j-ésimo autovetor. TE073 – Processamento Digital de Sinais II
Assim, caso o número N de vetores seja menor que o número de dimensões p: • O numero de autovalores não-nulos é igual ao número de vetores x do conjunto , se a matriz de correlação é calculado a partir desse conjunto. • Dado um conjunto de N vetores x, existem apenas N-1 vetores linearmente independentes, caso seja usado a matriz de covariância. TE073 – Processamento Digital de Sinais II
O Mapeamento • Resolvendo-se o problema dos autovalores, determina-se os autovetores que minimizam o erro de representação. • Definindo-se a matriz de transformação A como: onde os p autovetores são as colunas da matriz A. TE073 – Processamento Digital de Sinais II
Podemos mapear cada vetor no espaço p-dimensional para um vetor no espaço t-dimensional, através do truncamento das colunas da matriz A utilizando apenas t autovetores (geralmente considera-se os autovetores associados aos maiores autovalores) Extração de Características:Espaço de Características t-dimensional TE073 – Processamento Digital de Sinais II
Utilização do PCA • Objetivo: reduzir a dimensionalidade do espaço de entrada p-D, mantendo tanta informação quanto possível, em um novo espaço t-D. • Adquirir os dados: Número de vetores... • Calcular a Matriz de Covariância • Calcular os Autovalores e Autovetores • Escolher os autovetores: Critério da informação... • Mapear os dados para o novo espaço TE073 – Processamento Digital de Sinais II
Exemplo: Reconhecimento de Face • http://www.pages.drexel.edu/~sis26/Eigenface%20Tutorial.htm EigenFaces TE073 – Processamento Digital de Sinais II
Exemplo: Reconhecimento Posturas Manuais Imagens 100x100 Imagens 32x32 TE073 – Processamento Digital de Sinais II
Eigenlettershttp://www.cc.gatech.edu/classes/cs7322_97_spring/participants/Sumner/final/report.htmlEigenlettershttp://www.cc.gatech.edu/classes/cs7322_97_spring/participants/Sumner/final/report.html • Eigeneyes • Eigenvoice • Eigenqualquercoisa TE073 – Processamento Digital de Sinais II