250 likes | 494 Views
Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se como quantitativas discretas) e um categórica (qualquer tipo de variável pode ser categorizada) Testes t (independentes e
E N D
Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se como quantitativas discretas) e um categórica (qualquer tipo de variável pode ser categorizada) Testes t (independentes e pareados) e ANOVA e seus similares não-paramétricos. Abordaremos doravante a situação referente a duas vars. quantitativas, através do coeficiente de correlação e da análise de regressão. Nota: Na literatura distingue-se a associação (vars. categóricas da correlação (vars. numéricas). Coeficiente de correlação de Pearson (r): É uma medida (coeficiente) do grau de relação linear entre duas variáveis “quantitativas”.
O coeficiente de correlação varia de -1 a 1, sendo que valores negativos indicam uma relação inversamente proporcio- nal entre as vars., à medida que os valores de uma var. crescem os da outra decrescem. Exemplo: Mortalidade infantil X Percentual de mães com pré-natal. Valores positivos do coeficiente indicam uma relação diretamente proporcional entre as vars., à medida que os valores de uma var. crescem os da outra também crescem. Exemplo: Peso X Altura Valores próximos a 0 (negativos ou positivos)indicam uma relação de independência entre as vars. o fato dos valores de uma var. aumentarem ou diminuírem não exerce influência sobre a outra var. Exemplo: Nota na prova X Altura. O 1o. passo quando estudamos duas variáveis quantitativas é construir- mos um gráfico conhecido por Diagrama de Dispersão (Scatterplot), que é simplesmente colocar uma var. no eixo X e outra no eixo Y
Na fig. Ao lado temos exemplos de uma cor. positiva perfeita (a), de uma cor. negativa perfeita (b),de uma independência perfeita (c) e de uma situação em que r não é a estatística mais apropriada, quando a relação entre as vars. não é linear A suposição envolvida no cálculo de r é que as vars. tenham distribuição Normal, logo necessário testá-las. A estimação de r dá-se através da seguinte fórmula: “Interpretações de r”: (em módulo) r entre 0 e 0.20 : Cor. fraquíssima, independência r entre 0.21 e 0.35: Cor. de fraca a razoável r entre 0.35 a 0.50: Cor. de razoável a boa r entre 0.50 a 0.70: Cor. boa r acima de 0.70: Cor. ótima
Entretanto atenção na utilização destas interpretações, cada estudo tem suas características, o que pode ser um valor de r baixo para determinado contexto pode ser considerado ótimo em outra situação. Ao coeficiente de correlação esta associado um teste de hipótese, que testa se o r calculado é ou não diferente de 0. Então H0 : r = 0 X H1: r 0. A estatísticasegue uma distribuição t com n-2 g.l. Portanto devo observar duas coisas: 1) A magnitude da correlação, i. é, o valor de r; 2) Se r é ou não significativo (p 0.05). Depende do N Desejo coeficientes ao menos razoáveis e significativos. r pode ser calculado tanto para amostras independentes como pareadas. Quero verificar se há relação entre entre a nota da prova e as horas de estudo, sabendo ambas normais. Vamos em ‘Graph’, depois em ‘Scatterplot”.
Nesta tela faço a opção pelo gráfico do tipo Simple e OK. Aloco minha var. nota em Y e horas em X, e OK O diagrama de dispersão já da uma boa noção que minhas vars. têm uma correlação (positiva), vamos então quantificá-la.
Vamos em ‘Basic statistics’ e daí em ‘Correlations’. Seleciono as duas variáveis e deixo ativa a célula “Display p-values”. e OK. No output tenho o valor do meu coeficiente de correlação linear de Pearson = 0.70, alto, e o p- value, demonstrando ser r significativamente diferente de 0.
E quando uma ou as duas vars. não tem distribuição Normal ? Coeficiente de correlação não-paramétrico de Spearman ou Kendall. O Minitab não calcula Spearman diretamente, para isto temos que realizar o seguinte procedimento: Tenho as vars X e Y, vou em ‘Manip’ e daí em ‘Rank’, este módulo atribuirá os ranks relativos a cada observação em uma nova variável (coluna). Aloco a var. X em ‘Rank data in:’ e específico a co- luna em que desejo arma- zenar os dados em ‘Store ranks in’ (C9). Faço o mesmo para Y em C10
Agora com minhas ‘novas’ vars. C9 e C10 eu efetuo uma correlação de Pearson como anteriormente Apesar da saída fazer referência ao coeficiente de Pearson realizamos o de Spearman Correlations: C9; C10 Pearson correlation of C9 and C10 = 0,705 P-Value = 0,000 ATENÇÃO: O coeficiente de correlação mede o grau de correlação entre duas vars, mas absolutamente não significa que necessariamente haja uma relação de causa-efeito entre as vars. Quando encontramos uma correlação que se demonstra importante para o nosso estudo, normalmente desejamos extrair mais informações a respeito da relação entre as vars. , tais como estimar um modelo (equação matemática) que a represente, realizar predições, etc. Um modo de avançarmos mais nesta análise é realizarmos uma Análise de Regressão.
Quando realizo uma regressão linear quero estimar uma função linear ( f(Y) = a + bX) que represente a relação entre duas vars. Então primeiro preciso definir quem será a var. independente (X), a que “tentará” explicar a var. dependente (Y). Portanto desejoestimar a reta que melhor represente a relação entre as vars. X e Y, ou em outra palavras, o modelo linear (reta) que exprima a reação de Y conforme X varia Suposições para a realização da análise de regressão: 1) Cada observação das variáveis X e Y são independentes uma das outras 2) É necessário homocedasticidade das variâncias de Y para cada valor X Suposição contornável 3)IMPORTANTE: As vars. não precisam ter dist. Normal, mas o erro ou resíduo necessita dist. Normal. Pouco citado.
Então na reta Y = a +bX necessito estimar ‘a’ (B0) conhecido por coeficiente linear ou intercepto e ‘b’(B1) conhecido por coeficiente angular(slope) através do método dos mínimos quadrados. O método dos mínimos quadrados garante que a reta ajustada tem a propriedade que a soma das distâncias dos pontos (erros ou resíduos) à reta ajustada é a menor possível. O método mostra que b é estima- do através da seguinte fórmula:
Com a estimativa do slope (B1) posso estimar ‘a’ (B0) através da fórmula: No Minitab, Stats, ‘Regression’ e ‘Regression’ Na tela do Regression, aloco a var.Y a dependente, a que eu desejo que sejá explicada em “Response”; e a var.X, a independente, a que vai explicar, a preditora, que vai predizer, em “Predictors”. Vou também ativar os módulos “Graphs” e “Results”
Em Graphs deixo ‘Regular’ e marco “Residuals vs fits” Em Results marco a 2a. opção Interpretando a saída temos em (1) a reta ajustada, em (2) as estimativas dos parâmetros, seu erro padrão e um teste para a sua significância *, demonstrando que ambos são significativos, depois temos a estatística R2** e finalmente em (3) um tabela de ANOVA equivalente à já estudada
* O teste de hipótese associado ao p-value é H0: estimativa do slope = 0 X H1 Estimativa do slope (b ou B1) 0. Para que a regressão faça sentido, i é, o ajuste seja significativo é necessário REJEITAR H0, o slope têm de ser diferente de 0, senão, se for = 0 temos uma reta como da fig. abaixo. Neste caso para qualquer valor de X, a reta me fornecerá o mesmo valor de Y, logo não faz sentido este ajuste, não me serve para nada. ** A estatística R2 indica o quanto da variação de Y está sendo ‘explicada pela variação de X em percentual. No nosso caso 47% da variação de Y é explicada por X. O slope de 2,52 pode ser interpretado como que a cada aumento de 1 unidade de X equivale a um aumento de 2,5 unidades de Y em média.
O gráfico que pedimos no módulo Graphs é conhecido por Gráfico dos Resíduos e “mostra” a distância de cada ponto estimado do ponto observado. É importante que eles estejam aleatoriamente distribuídos em torno do 0 (linha tracejada) pois indica que o nosso ajuste não tem tendências. Um gráfico de resíduos como o ao lado indica que o ajuste quadrático é o mais indicado. Y =a + bX + cX2. Para cada gráfico de resíduos que foge da aleatoriedade há um motivo e correções no modelo são necessárias.
Existe uma exceção quanto à independência dos valores das vars. X e Y é quando a var. X refere-se ao tempo e são realizadas medidas repetidas nas mesmas unidades amostrais ao longo do tempo, por exemplo, verifico se o volume do rim das gestantes aumenta ao longo do tempo, então observo o volume das mesmas gestantes ao longo de várias semanas gestacionais, ou o desempenho de atletas no tempo conforme os treinamentos vão ocorrendo. Semana Vol 8 15 8 14 12 20 Mesma observação, mesma unidade amostral 12 22 16 25 16 22 Lembre-se sempre de verificar o diagrama de dispersão para ver se é mesmo a reta o melhor ajuste, do mesmo modo pode-se ajustar modelos quadráticos, exponenciais, logísticos, ...
Tudo o que foi visto referia-se a uma relação linear entre as duas variáveis, porém nem sempre a relação entre 2 vars. é linear, ela pode seguir outro pa- drão: quadrática, cúbica, exponencial, etc... Quadrático: Y = a + bX + cX² Exponencial: Y = e↑(a + bX) No Minitab vamos em ´Regression´ depois em “Fitted Line Plot.”
Nesta tela colocamos na var. respos- ta (dependente) a var. consumo, e na var. preditora (independente) a var. temperatura. O interesse é verificar como o consumo de energia de uma máquina varia, depende, da tempera- tura. Inicialmente testamos um modelo linear, para isso basta clicar em ´Linear´ no “Type of Regression Model”. E OK. No output dos resultados temos um R² = 0% e um p = 0.67, portanto o ajuste linear não é adequado. No output gráfico temos a reta ajusta- da, onde fica claro que o modelo line- ar não é indicado para esta relação.
Fazendo a opção pelo modelo quadrático temos: No output de resultados temos a equação estimada (Consumo = 128,7 – 13,1*Tem + 0.328*Temp²), o R² = 73,4% , um p = 0.004 demonstrando que o ajuste qua- drático foi bastante significativo. No output gráfico verificamos que o ajuste quadrático realmente é bastante representativo da relação entre consumo e tempo.
Fazendo a opção pelo modelo cúbico temos: No output temos a equação estimada, o R² = 84.0% , e o “p“ do modelo (0.003) demonstrando ser o mesmo significativo. Abaixo temos o gráfico do modelo cúbico estimado. Observe que no último quadro da tela de resultados, temos uma tabela com probabilidades para o linear (0.67), o quadrático (0.001), e o cúbico (0.055), com base nesta tabela escolhemos o modelo quadrático como modelo final. O ganho do R² do cúbico para o qua- drático ( de 73,4% para 84%,0) é pou- co p/ justificar a inclusão de um ele- mento a mais na equação.
Normalmente, quando temos dois modelos visando esclarecer uma relação entre duas vars., se não há um ganho considerável de R² e de “p” opta-se pelo modelo mais simples, aquele que possuir menos ´elementos´na sua forma, na sua equação. Como visto anteriormente, podemos estar interessados em analisar o efeito de mais de uma variável independente sobre a var. dependente.Multivariada Tudo o que foi dito anteriormente sobre análise multivariada na aula de Anova é válido aqui,a diferença é que nossas vars. independentes são vars. numéricas ou qualitativas ordinais, quando não categorizadas. Nesta situação também pode-se testar a interação, mas é menos usual do que quando temos vars. categorizadas. Deseja-se estudar a influência das vars. idade, e9 e e10 sobre a variável Etotal. No módulo da “Regression” alocamos as variáveis independentes em “Predictors” e a dependente em “Response”. E OK.
No output temos a equação estimada: Etot = 22.2 + 0.27*Idade + 1.66*e9 + 2.01*e10. Temos uma tabela da Anova para o mo- delo completo (p < 0.001); o teste de hi- pótese a que se refere o p-value é que pelo menos um dos coeficientes das vars. preditoras é significativamente diferente de 0. Na tabela do meio temos as estimativas dos coeficientes de cada variável, seus respectivos erros padrões e um teste de significância para cada coefici- ente. Temos ainda um R² = 41.1% Podemos notar que a var. Idade não está contribuindo para o modelo, logo podemos realizar uma nova análise retirando a Idade do rol de vars. predito- ras. Basta ir no módulo regressão e retirar Idade a variável Idade e executar novamente.
No novo output temos a nova equação sem Idade. Observe que o modelo con- tinuou bastante significativo (p do mo- delo total < 0.001); o R² não sofreu al- teração, o que demonstra que Idade realmente não acrescentava nada na ´explicação’ de Etotal Na tabela do meio verificamos que as vars. que permaneceram no modelo têm todas p-value significativos, ou seja, contribuem para o modelo, por- tanto encerro minha análise com um modelo onde todas as vars. são sig- nificativas. Etotal = 27,9 +1.67*e9 + 2.01*e10.
Tal qual na Análise de Variância, podemos ter a situação em que há muitas variáveis independentes. Pode-se verificar o coef. de correlação de cada uma das vars. independen- tes com a var. independente e selecionarmos aquelas que apresentarem um valor do coef. de correlação acima de um determinado valor ou aquelas que forem significativas. Após a seleção das vars. que comporão o modelo inicial pode-se realizar o procedimento anteriormente visto de, passo a passo, ir excluindo-se as vars. que não forem significativas ( p ≤ 0.05). Passo a passo = Stepwise . Procedimento também fornecido pelo Minitab Neste tipo de análise também é possível verificar a interação entre duas ou vars. independentes, mas não é muito comum encontrarmos. A interação significativa aqui, como na Anova, indica que a relação entre uma var. de- pendente e a var. independente varia conforme os valores da outra var. dep. Na regressão multivariada pode ocorrer um problema chamado: MULTICOLINEARIDADE: Quando há um forte correlação(r > 0,60) en- tre duas ou mais das variáveis independentes Problemas com as estima- tivas e p-values. Solução é excluir uma (ou mais) das vars. da análise.