1 / 24

Seminário DEs/DEP

Seminário DEs/DEP. Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi. Técnicas Multivariadas. Tópicos abrangidos : Análise Discriminante Análise de Cluster Análise de Correspondência. Análise Discriminante. Objetivo

chava
Download Presentation

Seminário DEs/DEP

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi djoi@power.ufscar.br

  2. Técnicas Multivariadas • Tópicos abrangidos: • Análise Discriminante • Análise de Cluster • Análise de Correspondência djoi@power.ufscar.br

  3. Análise Discriminante • Objetivo • Construir um modelo preditivo para prognosticar o grupo a qual pertence uma observação a partir de determinadas características observadas. • Permite classificar novos indivíduos em grupos previamente estabelecidos a partir das informações das variáveis observadas. • Fundamentalmente, se deseja construir uma regra ou esquema de classificação que possibilite ao investigador predizer a população que é mais provável que um indivíduo pertença. • Este é o caso onde temos uma variável dependente não métrica (que define os grupos) e várias variáveis independentes métricas. djoi@power.ufscar.br

  4. Análise Discriminante • Curiosidade: teve início com a “certeza” que um diretor de penitenciária americana tinha em ser capaz de reconhecer um criminoso andando na rua, somente através das medidas morfométricas da pessoa; • Hitler criou as medidas perfeitas de um ariano puro; • Ainda hoje existem “teorias” sobre a relação entre medidas morfométricas e estruturas psíquicas. djoi@power.ufscar.br

  5. Análise Discriminante • Exemplos: • Área de crédito: dado o cadastro de clientes, estabelecer um critério para empréstimo. (Credit Score); • Área de negócios: criar uma regra, a partir de um banco de dados sobre a previsão de insolvência de empresas; • Área de negócios: regra para prever a troca de fornecedores por parte dos clientes; • Policial: através das imagens de satélite ser capaz de reconhecer se uma plantação é de maconha. • Policial: construir um critério para ajudar a PM de nossa cidade a identificar os locais de maior risco em relação à criminalidade. djoi@power.ufscar.br

  6. Análise Discriminante djoi@power.ufscar.br

  7. Análise Discriminante djoi@power.ufscar.br

  8. Análise Discriminante • Curso de Multivariada\NOVPRODU.STA djoi@power.ufscar.br

  9. Análise de Cluster • Objetivo • Dado um conjunto de n objetos observados através de p variáveis, agregá-los em grupos “similares” segundo o conjunto de características avaliadas. • O que diferencia esta técnica da anterior é que nesta o número de grupos não é conhecido de antemão. • Os agrupamentos resultantes devem ter a propriedade de serem bastante homogêneos internamente ao grupo, mas bastante heterogêneos em relação aos elementos de outros grupos. djoi@power.ufscar.br

  10. Análise de Cluster • A forma de agir da Análise de Cluster difere das demais técnicas por trabalhar unicamente com o conceito de distância entre os sujeitos. • A “semelhança” utilizada é dada por proximidade dos casos segundo uma medida de distância, que em muitos casos é a distância euclidiana e em outros a distância estatística. • Ela pode ser usada também para agrupar variáveis ao invés de casos, porém a distância utilizada é a correlação entre elas. Este tipo de distância oferece alguns desafios que precisa ser entendido dentro do contexto do estudo. • Basicamente existem 3 tipos de medidas de similaridade entre os sujeitos:distância, correlação e associação. djoi@power.ufscar.br

  11. Análise de Cluster • Algorítmos de agrupamento: • Como fazer para colocar no mesmo grupos os casos? • Método Hierárquico • Método aglomerativo – começa só com ele • Método divisivo – começa com todos os casos • Dendrograma – árvore que mostra os casos se agrupando • Algorítmos: • single linkage, average linkage e complete linkage • Ward djoi@power.ufscar.br

  12. Análise de Cluster • Método Não hierárquico: não usa o processo de árvore mas partem de agrupamentos feitos a priori e corrigem o os agrupamentos reajustando as distâncias entre os elementos ao centro de cada grupo.Também são chamados de K-means. • Método de Referencia Seqüencial • Método da Referencia Paralela • Método da Otimização djoi@power.ufscar.br

  13. Análise de Cluster • Número de Agrupamentos: quantos grupos formar? • Não existem regras que possam ser recomendadas para todos os casos. • Existe a regra estatística, que a distância entre os agrupamentos são claramente determinados a partir de um teste de hipóteses; • Existe a regra do “bom senso” onde os grupos são construídos a partir do dendrograma. djoi@power.ufscar.br

  14. Análise de Cluster STATISTICA.lnk djoi@power.ufscar.br

  15. Análise de Correspondências • Objetivo • Analisar tabelas de dupla-entrada ou de múltiplas entradas levando-se em consideração alguma medida de correspondência entre linhas e colunas; • Ela converte uma matriz de dados não negativos em um tipo de representação gráfica em que linhas e colunas são representadas em dimensões reduzidas, isto é, por pontos num gráfico. djoi@power.ufscar.br

  16. Análise de Correspondências • Exemplo: • Consideremos as vendas de três produtos A, B e C para pessoas de três faixas etárias. djoi@power.ufscar.br

  17. Análise de Correspondências • Queremos encontrar um padrão para estabelecer que os jovens compram mais do produto X ou os idosos compram do produto Y; • Para isso precisamos de uma medida padronizada de vendas que leve em conta simultaneamente as diferenças em vendas para uma combinação específica de produto-faixa etária; • Se um grupo compra mais unidades de um produto do que o esperado, podemos associar essa faixa etária ao produto comprado. djoi@power.ufscar.br

  18. Análise de Correspondências • Em uma representação gráfica, grupos de idade seriam colocados mais proximamente de produtos com os quais eles estão mais altamente associados e mais afastados de produtos com menores associações. • Isso se faz através do cálculo dos valores observados menos os valores esperados sob a suposição de não haver qualquer associação entre produtos e consumidores. • Os valores esperados são calculados através do produto cruzado entre os totais de linhas e colunas correspondentes, dividido pelo total de vendas. djoi@power.ufscar.br

  19. Análise de Correspondências • Após a determinação dos valores esperados, encontra-se o Qui-quadrado de cada cruzamento através da seguinte fórmula: djoi@power.ufscar.br

  20. Análise de Correspondências djoi@power.ufscar.br

  21. Análise de Correspondências djoi@power.ufscar.br

  22. Análise de Correspondências • A partir da construção de uma estrutura de relacionamento, determinam-se dimensões através da decomposição espectral (autovalores e autovetores) cujo gráfico das variáveis e casos são representados por pontos e cujas proximidades refletem a semelhança entre comportamentos. • A construção dessas dimensões é realizada através dos softwares estatísticos e fica muito difícil a sua obtenção através de outros meios. • A grande contribuição da AC está nesses gráficos que permitem a avaliação visual do comportamentos das linhas e colunas num único gráfico. djoi@power.ufscar.br

  23. Bibliografia • Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C. Análise Multivariada de Dados. 5a. Edição, Bookman, 2005 • Johnson, R.A.; Wichern, D.W. Applied Multivariate Statistical Analysis. 4a. Edição, Prentice Hall, 1998. • Manly, B.F.J. Multivariate Statistical Analysis: A primer. 2a. Edição, Chapman & Hall, 1997. • Manual do Statistica, Vol III: Statistics II. StatSoft, 1999. • Lopez, C.P. Métodos Estadísticos Avanzados com SPSS. Thomson, 2005. djoi@power.ufscar.br

  24. Muito obrigado a todos vocês que conseguiram me agüentar nesses dois dias.Que Deus os abençoe e os gratifiquem contribuindo com um mãozinha na MegaSena (mas se ganharem não se esqueçam da minha comissão) djoi@power.ufscar.br

More Related