1 / 33

ANÁLISE DISCRIMINANTE

ANÁLISE DISCRIMINANTE. LIG, 30 de outubro de 2008. INTRODUÇÃO. Técnicas multivariadas que dizem respeito à “separação” de conjuntos distintos de objetos (ou observações) e à alocação de novos objetos (observações a grupos previamente definidos. Principais objetivos:

errol
Download Presentation

ANÁLISE DISCRIMINANTE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

  2. INTRODUÇÃO Técnicas multivariadas que dizem respeito à “separação” de conjuntos distintos de objetos (ou observações) e à alocação de novos objetos (observações a grupos previamente definidos. Principais objetivos: Descrever gráfica e algebricamente os aspectos que diferenciam os grupos de objetos (observações). Determinar “discriminantes” entre grupos. (discriminação). Alocar objetos em classes previamente definidas. A ênfase aqui está na derivação de uma regra que pode ser usada para designar de forma ótima um novo objeto às classes existentes.

  3. MÉTODO DE FISHER Considere duas classes (populações) 1 e 2. Os objetos ou observações são ordinariamente separados ou classificados com base nas medidas associadas à variável Xde dimensão px1. Os valores observados de Xdiferem de uma classe para outra. Se os valores de X não forem muito diferentes dos objetos em 1 e 2, as classes serão indistinguíveis e novos objetos poderiam ser designados aleatoriamente a qualquer uma das classes.

  4. MÉTODO DE FISHER Estas duas populações podem ser descritas pelas respectivas funções de densidade de probabilidade f1(x) e f2(x), e conseqüentemente, podemos falar na designação de observações às populações. A idéia de Fisher foi transformar as observações multivariadas X em observações univariadas Y tal que as Y 's obtidas a partir das populações 1 e 2 fossem o mais “separadas” possíveis. Fisher sugeriu tomar combinações lineares das componentes de X para criar as variáveis Y 's.

  5. Método de Fisher Fisher selecionou a tal que a distância quadrada entre 1Y e 2Y relativa à variabilidade dos Y's seja a maior possível. Isto é, selecionou a tal que a razão: seja máxima.

  6. Método de Fisher

  7. Função discriminante linear de Fisher Podemos usar a função discriminante linear de Fisher como um esquema de classificação. A saber, defina Y0=(1- 2)TΣ-1x0como o valor da função para uma nova observação x0e considere o ponto médio entre as duas médias populacionais, dado por

  8. Função discriminante linear de Fisher Subtraindo m dos valores esperados de Y0 condicionados a cada uma das duas populações obtemos: e

  9. Função discriminante linear de Fisher Assim, se Y0 provém da população 1 esperamos que ele seja superior ao ponto médio m e, caso contrário, esperamos que ele seja inferior ao ponto médio m. Desse modo a regra de classificação é dada por Alocar a nova observação x0em Porém 1, 2, e Σsão geralmente desconhecidos. Portanto, a regra acima não pode ser implementada a menos que a e m possam ser estimados a partir das observações amostrais.

  10. Estimação Suponha que tenhamos amostras de tamanhos n1 e n2 de 1 e 2, respectivamente. Sejam X1 e X2 as matrizes de dados de ordens n1 x p e n2 x p. A partir dessas matrizes, calculamos os vetores de médias amostrais e as matrizes de covariância amostrais.

  11. Notação Como estamos supondo covariâncias iguais nas duas populações, o estimador não tendencioso para a matriz Σ de covariância populacional é dado por:

  12. Estimação Dadas as amostras, observamos os valores Substituímos então esses valores na regra anterior tal que a regra estimada é alocar a nova observaçãox0em

  13. Informações adicionais Seja 2 o valor máximo da razão populacional : 2 é chamado distância quadrada entre as duas populações. O máximo da razão amostral é D2= d'S-1d, em que D2 é a distância quadrada amostral e dé a diferença entre os vetores de média amostrais. Para duas populações a “separação” máxima relativa que pode ser obtida considerando-se todos os compostos lineares das observações multivariadas é igual a distância D.

  14. Teste de separação • A distância quadrada D2 pode ser usada para testar • a diferença entre médias para as duas populações via teste • T2 de Hotelling da seguinte forma sob a suposição de • normalidade. Se a hipótese nula é rejeitada, podemos concluir que a diferença entre as duas populações é significativa.

  15. Comentários Separação significativa entre populações não implica necessariamente em “boa” regra de classificação. A eficácia de um procedimento de classificação pode ser avaliada independentemente de qualquer teste de separação. Por outro lado, se a separação não é significativa, a busca por uma regra “boa” de classificação será provavelmente infrutífera.

  16. Classificação em uma de duas populações Regras de classificação são geralmente desenvolvidas a partir de amostras de “aprendizado”, isto é amostras para as quais sabe-se de qual das duas populações provém o objeto. As medidas características dos objetos selecionados aleatoriamente são, então, examinadas pelas suas diferenças para os dois grupos. Na prática: o conjunto de todos os resultados amostrais é dividido em duas regiões R1 e R2 tal que se uma nova observação ´cair em R1 ela será alocada na população 1 e, se cair em R2, ela será alocada na população 2.

  17. Classificação em uma de duas populações Deve ficar claro que as regras de classificação geralmente não fornecem um método de designação livre de erro. Isto ocorre porque pode não existir uma distinção entre as medidas características das duas populações, isto é, os grupos podem de alguma forma sobrepor-se. É, então, possível classificar incorretamente uma observação proveniente da população 1 na população 2 e vice-versa. Um bom procedimento de classificação deveria resultar em poucas classificações incorretas. Em outras palavras, as chances, ou probabilidades de classificação incorreta devem ser pequenas. Outro aspecto da classificação é o custo que pode-se estar sujeito devido a uma classificação incorreta. Suponha que classificar um objeto de 1 em 2 represente um erro mais sério do que classificar um objeto de 2 em 1. Um procedimento de classificação ótimo deve sempre que possível levar em conta os custos associados à classificação incorreta.

  18. Custo de classificação incorreta Sejam f1(x) e f2(x), as densidades de probabilidade associadas às populações 1 e 2. Um objeto, caracterizado pelas medidas dadas pelo vetor x, deve ser designado de forma ótima a 1 ou a 2. Seja R a coleção de todas as possíveis observações x. Sejam R1 o conjunto de valores no espaço amostral para os quais classificamos o objeto em 1 e, R2 o conjunto dos valores restantes para os quais classificamos o objeto em 2. Como todo objeto deve ser classificado em uma, e somente uma, das duas populações segue que os conjuntos R1 e R2 devem ser mutuamente exclusivos e exaustivos tal que R1R2= e R1UR2=R. A probabilidade condicional, p21, de classificar um objeto de 1 em 2 é:

  19. Custo de classificação incorreta Similarmente, a probabilidade condicional, p12, de classificar um objeto de 2 em 1 é: Sejam 1 a probabilidade a priori de um objeto pertencer a 1 e, 2 a probabilidade a priori de um objeto pertencer a 2. A probabilidade total de classificação incorreta é então dada por: PTCI= 1 p21 + 2 p12 As regras de classificação são freqüentemente avaliadas em termos de suas probabilidades de classificação incorreta, mas este critério não leva em consideração os custos de classificação.

  20. Custo de classificação incorreta Para qualquer regra de classificação, o custo esperado de classificação incorreta (CECI) é dado por: CECI=C211 p21 + C122 p12 Uma regra de classificação razoável deve ter um CECI tão pequeno quanto possível.

  21. Regras de alocação ótimas Sugere-se que uma regra de classificação adequada poderia ser determinada pela minimização do custo esperado de classificação incorreta (CECI). Em outras palavras, as regiões R1 e R2 devem ser escolhidas tal que o CECI seja minimizado Resultado: As regiões R1 e R2 que minimizam o CECI são definidas pelos valores de x para os quais as seguintes desigualdades valem:

  22. Regras de alocação ótimas A implementação dessa regra requer o cálculo da razão das funções de densidade em x0(nova observação); a razão entre os custos de classificação incorreta C12 e C21 e, a razão das probabilidades de incidência a priori, 1 e 2.

  23. Casos especiais: 1) Probabilidades de incidência a priori iguais: 2) Custos de classificação incorreta iguais: 3) Custos de classificação incorreta iguais e prioris iguais:

  24. Comentários Quando as probabilidades a priori são desconhecidas considera-se, em geral, prioris iguais. Quando a razão entre os custos de classificação incorreta é desconhecida, toma-se, em geral, custos de classificação incorreta iguais. Quando ambas as razões são desconhecidas, tomam-se custos e prioris iguais.

  25. Exemplo Um pesquisador dispõe de dados suficientes para estimar as funções de densidade f1(x) e f2(x), às populações 1 e 2, respectivamente. Suponha C21=5 unidades e C12=10 unidades. Além disso, sabe-se que cerca de 20% de todos os objetos pertencem a 2. Suponha que uma nova observação x0 resultou em f1(x0)=0.3 e f2(x0)=0.4. Usando a regra do CECI mínimo, em qual das duas populações você classificaria esta nova observação?

  26. Exemplo - solução

  27. Observações Outros critérios diferentes do critério do CECI mínimo podem ser usados para derivar procedimentos ótimos de classificação. Por exemplo, pode-se ignorar os custos de classificação incorreta e escolher R1 e R2 que minimizam a probabilidade total de classificação incorreta (PTCI= 1 p21+ 2 p 12). Matematicamente, o problema aqui é equivalente ao problema de minimização do custo esperado de classificação (CECI) quando os custos C21 e C 12 são iguais. Conseqüentemente, as regiões ótimas são

  28. Probabilidade a posteriori de classificação incorreta Podemos também alocar uma nova observação x0 à população com maior probabilidade de incidência a posteriori P(i|x0) em que

  29. Comentários A regra obtida usando probabilidades a posteriori de classificação é a mesma regra quando consideram-se custos de classificação incorreta iguais, mas tem a vantagem na identificação de designações menos óbvias.

  30. Duas populações normais Suponha agora que f1(x) e f2(x), sejam densidades normais p-variadas com vetores de média μ1 e μ2 e matrizes de covariância 1 e 2. Caso 1: 1=2=.

  31. Populações normais, covariâncias iguais Nesse caso, as regiões de classificação são dadas por:

  32. Populações normais, covariâncias iguais Comparando a regra do CECI mínimo e essa regra com o método de Fisher observe que os procedimentos serão equivalentes de os custos e probabilidades de incidência a priori forem iguais. Aplicando a função log na base e, em ambos os lados da desigualdade obtida obtém-se a seguinte regra de classificação simplificada:

  33. Função discriminante linear no R No R está disponível no pacote MASS a função lda (linear discriminant analysis). Exemplo no R

More Related