240 likes | 357 Views
Seminário DEs/DEP. Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi. Técnicas Multivariadas. Tópicos abrangidos : Análise Discriminante Análise de Cluster Análise de Correspondência. Análise Discriminante. Objetivo
E N D
Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi djoi@power.ufscar.br
Técnicas Multivariadas • Tópicos abrangidos: • Análise Discriminante • Análise de Cluster • Análise de Correspondência djoi@power.ufscar.br
Análise Discriminante • Objetivo • Construir um modelo preditivo para prognosticar o grupo a qual pertence uma observação a partir de determinadas características observadas. • Permite classificar novos indivíduos em grupos previamente estabelecidos a partir das informações das variáveis observadas. • Fundamentalmente, se deseja construir uma regra ou esquema de classificação que possibilite ao investigador predizer a população que é mais provável que um indivíduo pertença. • Este é o caso onde temos uma variável dependente não métrica (que define os grupos) e várias variáveis independentes métricas. djoi@power.ufscar.br
Análise Discriminante • Curiosidade: teve início com a “certeza” que um diretor de penitenciária americana tinha em ser capaz de reconhecer um criminoso andando na rua, somente através das medidas morfométricas da pessoa; • Hitler criou as medidas perfeitas de um ariano puro; • Ainda hoje existem “teorias” sobre a relação entre medidas morfométricas e estruturas psíquicas. djoi@power.ufscar.br
Análise Discriminante • Exemplos: • Área de crédito: dado o cadastro de clientes, estabelecer um critério para empréstimo. (Credit Score); • Área de negócios: criar uma regra, a partir de um banco de dados sobre a previsão de insolvência de empresas; • Área de negócios: regra para prever a troca de fornecedores por parte dos clientes; • Policial: através das imagens de satélite ser capaz de reconhecer se uma plantação é de maconha. • Policial: construir um critério para ajudar a PM de nossa cidade a identificar os locais de maior risco em relação à criminalidade. djoi@power.ufscar.br
Análise Discriminante djoi@power.ufscar.br
Análise Discriminante djoi@power.ufscar.br
Análise Discriminante • Curso de Multivariada\NOVPRODU.STA djoi@power.ufscar.br
Análise de Cluster • Objetivo • Dado um conjunto de n objetos observados através de p variáveis, agregá-los em grupos “similares” segundo o conjunto de características avaliadas. • O que diferencia esta técnica da anterior é que nesta o número de grupos não é conhecido de antemão. • Os agrupamentos resultantes devem ter a propriedade de serem bastante homogêneos internamente ao grupo, mas bastante heterogêneos em relação aos elementos de outros grupos. djoi@power.ufscar.br
Análise de Cluster • A forma de agir da Análise de Cluster difere das demais técnicas por trabalhar unicamente com o conceito de distância entre os sujeitos. • A “semelhança” utilizada é dada por proximidade dos casos segundo uma medida de distância, que em muitos casos é a distância euclidiana e em outros a distância estatística. • Ela pode ser usada também para agrupar variáveis ao invés de casos, porém a distância utilizada é a correlação entre elas. Este tipo de distância oferece alguns desafios que precisa ser entendido dentro do contexto do estudo. • Basicamente existem 3 tipos de medidas de similaridade entre os sujeitos:distância, correlação e associação. djoi@power.ufscar.br
Análise de Cluster • Algorítmos de agrupamento: • Como fazer para colocar no mesmo grupos os casos? • Método Hierárquico • Método aglomerativo – começa só com ele • Método divisivo – começa com todos os casos • Dendrograma – árvore que mostra os casos se agrupando • Algorítmos: • single linkage, average linkage e complete linkage • Ward djoi@power.ufscar.br
Análise de Cluster • Método Não hierárquico: não usa o processo de árvore mas partem de agrupamentos feitos a priori e corrigem o os agrupamentos reajustando as distâncias entre os elementos ao centro de cada grupo.Também são chamados de K-means. • Método de Referencia Seqüencial • Método da Referencia Paralela • Método da Otimização djoi@power.ufscar.br
Análise de Cluster • Número de Agrupamentos: quantos grupos formar? • Não existem regras que possam ser recomendadas para todos os casos. • Existe a regra estatística, que a distância entre os agrupamentos são claramente determinados a partir de um teste de hipóteses; • Existe a regra do “bom senso” onde os grupos são construídos a partir do dendrograma. djoi@power.ufscar.br
Análise de Cluster STATISTICA.lnk djoi@power.ufscar.br
Análise de Correspondências • Objetivo • Analisar tabelas de dupla-entrada ou de múltiplas entradas levando-se em consideração alguma medida de correspondência entre linhas e colunas; • Ela converte uma matriz de dados não negativos em um tipo de representação gráfica em que linhas e colunas são representadas em dimensões reduzidas, isto é, por pontos num gráfico. djoi@power.ufscar.br
Análise de Correspondências • Exemplo: • Consideremos as vendas de três produtos A, B e C para pessoas de três faixas etárias. djoi@power.ufscar.br
Análise de Correspondências • Queremos encontrar um padrão para estabelecer que os jovens compram mais do produto X ou os idosos compram do produto Y; • Para isso precisamos de uma medida padronizada de vendas que leve em conta simultaneamente as diferenças em vendas para uma combinação específica de produto-faixa etária; • Se um grupo compra mais unidades de um produto do que o esperado, podemos associar essa faixa etária ao produto comprado. djoi@power.ufscar.br
Análise de Correspondências • Em uma representação gráfica, grupos de idade seriam colocados mais proximamente de produtos com os quais eles estão mais altamente associados e mais afastados de produtos com menores associações. • Isso se faz através do cálculo dos valores observados menos os valores esperados sob a suposição de não haver qualquer associação entre produtos e consumidores. • Os valores esperados são calculados através do produto cruzado entre os totais de linhas e colunas correspondentes, dividido pelo total de vendas. djoi@power.ufscar.br
Análise de Correspondências • Após a determinação dos valores esperados, encontra-se o Qui-quadrado de cada cruzamento através da seguinte fórmula: djoi@power.ufscar.br
Análise de Correspondências djoi@power.ufscar.br
Análise de Correspondências djoi@power.ufscar.br
Análise de Correspondências • A partir da construção de uma estrutura de relacionamento, determinam-se dimensões através da decomposição espectral (autovalores e autovetores) cujo gráfico das variáveis e casos são representados por pontos e cujas proximidades refletem a semelhança entre comportamentos. • A construção dessas dimensões é realizada através dos softwares estatísticos e fica muito difícil a sua obtenção através de outros meios. • A grande contribuição da AC está nesses gráficos que permitem a avaliação visual do comportamentos das linhas e colunas num único gráfico. djoi@power.ufscar.br
Bibliografia • Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C. Análise Multivariada de Dados. 5a. Edição, Bookman, 2005 • Johnson, R.A.; Wichern, D.W. Applied Multivariate Statistical Analysis. 4a. Edição, Prentice Hall, 1998. • Manly, B.F.J. Multivariate Statistical Analysis: A primer. 2a. Edição, Chapman & Hall, 1997. • Manual do Statistica, Vol III: Statistics II. StatSoft, 1999. • Lopez, C.P. Métodos Estadísticos Avanzados com SPSS. Thomson, 2005. djoi@power.ufscar.br
Muito obrigado a todos vocês que conseguiram me agüentar nesses dois dias.Que Deus os abençoe e os gratifiquem contribuindo com um mãozinha na MegaSena (mas se ganharem não se esqueçam da minha comissão) djoi@power.ufscar.br