450 likes | 714 Views
Correlação. Correlação. Interesse em analisar o comportamento conjunto de duas variáveis quantitativas. Interesse em obter uma medida estatística que indique se existe ou não uma relação linear entre duas variáveis; e se existe, qual a sua magnitude e sinal.
E N D
Correlação Ogliari – Técnicas estatísticas para predição
Correlação • Interesse em analisar o comportamento conjunto de duas variáveis quantitativas. • Interesse em obter uma medida estatística que indique se existe ou não uma relação linear entre duas variáveis; e se existe, qual a sua magnitude e sinal. • Exemplo: anos de experiência em programação e o tempo gasto para realizar uma determinada tarefa. • Número de acessos a uma página e o tamanho da população economicamente ativa. Ogliari – Técnicas estatísticas para predição
Exemplo 1 • Processo de queima de massa cerâmica para pavimento • X1 = retração linear (%), • X2 = resistência mecânica (MPa) e • X3 = absorção de água (%). Ogliari – Técnicas estatísticas para predição
Exemplo 11.1 - Dados: Ogliari – Técnicas estatísticas para predição
Diagramas de dispersão • Uma representação gráfica bastante útil para se estudar a dependência entre variáveis quantitativas é o gráfico de dispersão, mostrados nos próximos slides. Ogliari – Técnicas estatísticas para predição
Exemplo 1 - Diagramas de dispersão: Interpretar a correlação entre as duas variáveis. Ogliari – Técnicas estatísticas para predição
Exemplo 1 - Diagramas de dispersão: Interpretar a correlação entre as duas variáveis. Ogliari – Técnicas estatísticas para predição
Exemplo 1 - Diagramas de dispersão: Interpretar a correlação entre as duas variáveis. Ogliari – Técnicas estatísticas para predição
Resultado de um teste (de 0 a 100) sobre conhecimento (X) e tempo gasto (minutos) para aprender a operar uma máquina (Y) para oito indivíduos. Ogliari – Técnicas estatísticas para predição
Interpretar a correlação entre as duas variáveis. Ogliari – Técnicas estatísticas para predição
X e Y estão positivamente correlacionadas quando elas caminham num mesmo sentido. • Estão negativamente correlacionadas quando elas caminham em sentidos opostos. • As maiores correlações positivas e negativas são obtidas somente quando todos os pontos estão bem próximos à uma linha reta. Ogliari – Técnicas estatísticas para predição
Idéia de construção do Coef. de Correlação de Pearson Ogliari – Técnicas estatísticas para predição
Padronização • Padronização (xi , yi) (xi’, yi’): (i = 1, 2, ..., n) Ogliari – Técnicas estatísticas para predição
Padronização (0, 0) Ogliari – Técnicas estatísticas para predição
Idéia de construção do Coef. de Correlação de Pearson (i = 1, 2, ..., n) Considere os produtos dos valores padronizados: xi’yi’ Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores padronizados: y’ Quadrante com xi’yi’ positivos Quadrante com xi’yi’ negativos x’ Quadrante com xi’yi’ negativos Quadrante com xi’yi’ positivos Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores padronizados: y’ Quadrante com xi’yi’ negativos Quadrante com xi’yi’ positivos x’ Quadrante com xi’yi’ negativos Quadrante com xi’yi’ positivos Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores padronizados: y’ Quadrante com xi’yi’ negativos Quadrante com xi’yi’ positivos x’ Quadrante com xi’yi’ positivos Quadrante com xi’yi’ negativos Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores padronizados: Quadrante com xi’yi’ positivos Quadrante com xi’yi’ negativos y’ x’ Quadrante com xi’yi’ negativos Quadrante com xi’yi’ positivos Ogliari – Técnicas estatísticas para predição
Coeficiente de correlação de Pearson • Definição: é uma medida do grau de correlação entre X e Y e, também, da proximidade dos dados a uma reta. • Esta medida varia no intervalo de -1 a 1. Ogliari – Técnicas estatísticas para predição
Idéia de construção do Coef. de Correlação de Pearson • Padronização (xi, yi) (xi’, yi’): (i = 1, 2, ..., n) Coef. de Correlação de Pearson: Ogliari – Técnicas estatísticas para predição
Valores possíveis de r e interpretação da correlação Força Sentido +1 Forte Positiva Moderada Fraca Valor de r 0 Ausência Fraca Moderada Moderada Negativa Forte -1 Ogliari – Técnicas estatísticas para predição
Exemplo 1. Matriz de correlações Interpretar. Ogliari – Técnicas estatísticas para predição
Exercício: calcular o coeficiente de correlação de Pearson para a porcentagem de acertos (Y) e tamanho da cache, em mil bytes, (X), para um determinado tipo de pré-carregamento. • (Y) 44,45 46,99 50,66 53,21 • (X) 250 300 350 400 Ogliari – Técnicas estatísticas para predição
Outra forma de calcular r • Exercício: calcular o coeficiente de correlação de Pearson para a porcentagem de acertos (Y) e tamanho da cache, em bytes, (X), para um determinado tipo de pré-carregamento usando a expressão acima. • (Y) 44,45 46,99 50,66 53,21 • (X) 250 300 350 400 Ogliari – Técnicas estatísticas para predição
Coeficiente de correlação populacional • É um parâmetro ou característica da população, representada pela letra grega e desconhecido. POPULAÇÃO (X,Y) Ogliari – Técnicas estatísticas para predição
Coeficiente de correlação populacional Exemplo: considere uma empresa que vende e conserta microcomputadores. Deseja-se estudar a relação entre o período de tempo do serviço de chamadas, em minutos (X) e o número de componentes eletrônicos no computador que devem ser consertados ou substituídos (Y). Ogliari – Técnicas estatísticas para predição
Inferência sobre • Dada uma amostra aleatória simples (x1, y1), (x2, y2), ..., (xn, yn) do par de variáveis aleatórias (X, Y), o coeficiente r pode ser considerado uma estimativa do verdadeiro e desconhecido coeficiente . • Podemos usar o coeficiente de correlação amostral, r, para fazer várias inferências sobre . • Uma população que tenha duas variáveis não-correlacionadas, pode produzir uma amostra com coeficiente de correlação diferente de zero, simplesmente devido à seleção dos dados. Ogliari – Técnicas estatísticas para predição
Teste de significância de • Exemplo: considere uma empresa que vende e conserta computadores. Para estudar a relação entre o período de tempo do serviço de chamadas, em minutos (X), e o número de componentes eletrônicos no computador que devem ser consertados ou substituídos, uma amostra de registros foi observada. Os resultados estão apresentados na tabela a seguir: Ogliari – Técnicas estatísticas para predição
Teste de significância de • H0: = 0 (as variáveis X e Y são não correlacionadas) • H1: 0 (as variáveis X e Y são correlacionadas) (pode também ser unilateral) • O cálculo do coeficiente de correlação na amostra selecionada produziu: • r = 0,994 Ogliari – Técnicas estatísticas para predição
Teste de significância de • Estatística do teste a qual tem distribuição t de Student com parâmetro n-2 graus de liberdade. Com os dados da amostra, obtemos: a qual tem distribuição t de Student com parâmetro 14-2=12 graus de liberdade. Ogliari – Técnicas estatísticas para predição
Teste de significância de • Região crítica • É um teste bilateral, da distribuição t de Student, obtemos para nível de significância () de 5% e 12 graus de liberdade: Ogliari – Técnicas estatísticas para predição
Teste de significância de • Conclusão: como t0 pertence a região de rejeição, rejeitamos a hipótese nula (H0), isto é, existe dependência entre tempo de chamada e número de componentes eletrônicas consertadas ou substituídas. Ogliari – Técnicas estatísticas para predição
Teste de significância de • Hipóteses: • Estatística do teste • Região crítica • Resultado da amostra • Conclusão Ogliari – Técnicas estatísticas para predição
Teste de significância de • Exercício • Desejamos testar se existe ou não correlação entre o número de clientes (Y) e os anos de experiência de agentes de seguros (X). Foram sorteados cinco agentes e observamos as duas variáveis em cada agente, cujos resultados foram: • Agentes A B C D E • Anos 2 4 5 6 8 • Clientes 48 56 64 60 72 • Teste a hipótese de não haver correlação entre número de clientes e anos de experiência. Utilize nível de significância de 10% (=0,10). Ogliari – Técnicas estatísticas para predição
Estimação de • Quando nós rejeitamos H0, isto é, que é diferente de zero, é bastante interessante construir um intervalo de confiança para o coeficiente de correlação populacional (). • Inicialmente obtemos o intervalo de confiança de 95% para , dado por: onde: Obs.: é a média da distribuição de uma transformação da estatística r. Ogliari – Técnicas estatísticas para predição
Estimação de • Para o exemplo da empresa que vende e conserta computadores, o intervalo de confiança de 95% para é dado por: Ver exemplo Ogliari – Técnicas estatísticas para predição
Estimação de • Finalmente, podemos encontrar os extremos do intervalo de confiança para o coeficiente de correlação populacional . • Assim de: e = 2,7183 Ogliari – Técnicas estatísticas para predição
Estimação de • Obtemos o intervalo para Assim, podemos afirmar que o coeficiente de correlação populacional é um número entre 0,98 e 0,998. Ogliari – Técnicas estatísticas para predição
Estimação de • Exercício • Concluímos que existe correlação entre o número de clientes e anos de experiência dos agentes (r = 0,95). Estime o verdadeiro valor do coeficiente de correlação com confiança de 90%. Ogliari – Técnicas estatísticas para predição
Causalidade versos correlação Pesquisadores freqüentemente são “tentados” a inferir uma relação de causa e efeito entre X e Y quando eles ajustam um modelo de regressão ou realizam uma análise de correlação. Uma associação significativa entre X e Y em ambas as situações não necessariamente implica numa relação de causa e efeito. Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O gráfico mostra a população de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o número de cegonhas (pássaros) naquele ano (X). Interpretação: existe associação entre X e Y. Freqüentemente, quando duas v. X e Y parecem estar fortemente associadas, pode ser porque X e Y estão, de fato, associadas com uma terceira variável, W. No exemplo, X e Y aumentam com W = tempo. Correlação não necessariamente implica em causalidade Ogliari – Técnicas estatísticas para predição