1 / 23

Nas relações entre 2 duas variáveis vimos as situações referentes à relação

Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se como quantitativas discretas) e um categórica (qualquer tipo de variável pode ser categorizada)  Testes t (independentes e

catori
Download Presentation

Nas relações entre 2 duas variáveis vimos as situações referentes à relação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se como quantitativas discretas) e um categórica (qualquer tipo de variável pode ser categorizada)  Testes t (independentes e pareados) e ANOVA e seus similares não-paramétricos. Abordaremos doravante a situação referente a duas vars. quantitativas, através do coeficiente de correlação e da análise de regressão. Nota: Na literatura distingue-se a associação (vars. categóricas da correlação (vars. numéricas). Coeficiente de correlação de Pearson (r): É uma medida (coeficiente) do grau de relação linear entre duas variáveis “quantitativas”.

  2. O coeficiente de correlação varia de -1 a 1, sendo que valores negativos indicam uma relação inversamente proporcio- nal entre as vars., à medida que os valores de uma var. crescem os da outra decrescem. Exemplo: Mortalidade infantil X Percentual de mães com pré-natal. Valores positivos do coeficiente indicam uma relação diretamente proporcional entre as vars., à medida que os valores de uma var. crescem os da outra também crescem. Exemplo: Peso X Altura Valores próximos a 0 (negativos ou positivos)indicam uma relação de independência entre as vars. o fato dos valores de uma var. aumentarem ou diminuírem não exerce influência sobre a outra var. Exemplo: Nota na prova X Altura. O 1o. passo quando estudamos duas variáveis quantitativas é construir- mos um gráfico conhecido por Diagrama de Dispersão (Scatterplot), que é simplesmente colocar uma var. no eixo X e outra no eixo Y

  3. Na fig. Ao lado temos exemplos de uma cor. positiva perfeita (a), de uma cor. negativa perfeita (b),de uma independência perfeita (c) e de uma situação em que r não é a estatística mais apropriada, quando a relação entre as vars. não é linear A suposição envolvida no cálculo de r é que as vars. tenham distribuição Normal, logo necessário testá-las. A estimação de r dá-se através da seguinte fórmula: “Interpretações de r”: (em módulo) r entre 0 e 0.20 : Cor. fraquíssima, independência r entre 0.21 e 0.35: Cor. de fraca a razoável r entre 0.35 a 0.50: Cor. de razoável a boa r entre 0.50 a 0.70: Cor. boa r acima de 0.70: Cor. ótima

  4. Entretanto atenção na utilização destas interpretações, cada estudo tem suas características, o que pode ser um valor de r baixo para determinado contexto pode ser considerado ótimo em outra situação. Ao coeficiente de correlação esta associado um teste de hipótese, que testa se o r calculado é ou não diferente de 0. Então H0 : r = 0 X H1: r  0. A estatísticasegue uma distribuição t com n-2 g.l. Portanto devo observar duas coisas: 1) A magnitude da correlação, i. é, o valor de r; 2) Se r é ou não significativo (p  0.05). Depende do N Desejo coeficientes ao menos razoáveis e significativos. r pode ser calculado tanto para amostras independentes como pareadas. Quero verificar se há relação entre entre a nota da prova e as horas de estudo, sabendo ambas normais. Vamos em ‘Graph’, depois em ‘Scatterplot”.

  5. Nesta tela faço a opção pelo gráfico do tipo Simple e OK. Aloco minha var. nota em Y e horas em X, e OK O diagrama de dispersão já da uma boa noção que minhas vars. têm uma correlação (positiva), vamos então quantificá-la.

  6. Vamos em ‘Basic statistics’ e daí em ‘Correlations’. Seleciono as duas variáveis e deixo ativa a célula “Display p-values”. e OK. No output tenho o valor do meu coeficiente de correlação linear de Pearson = 0.70, alto, e o p- value, demonstrando ser r significativamente diferente de 0.

  7. E quando uma ou as duas vars. não tem distribuição Normal ? Coeficiente de correlação não-paramétrico de Spearman ou Kendall. O Minitab não calcula Spearman diretamente, para isto temos que realizar o seguinte procedimento: Tenho as vars X e Y, vou em ‘Manip’ e daí em ‘Rank’, este módulo atribuirá os ranks relativos a cada observação em uma nova variável (coluna). Aloco a var. X em ‘Rank data in:’ e específico a co- luna em que desejo arma- zenar os dados em ‘Store ranks in’ (C9). Faço o mesmo para Y em C10

  8. Agora com minhas ‘novas’ vars. C9 e C10 eu efetuo uma correlação de Pearson como anteriormente Apesar da saída fazer referência ao coeficiente de Pearson realizamos o de Spearman Correlations: C9; C10 Pearson correlation of C9 and C10 = 0,705 P-Value = 0,000 ATENÇÃO: O coeficiente de correlação mede o grau de correlação entre duas vars, mas absolutamente não significa que necessariamente haja uma relação de causa-efeito entre as vars. Quando encontramos uma correlação que se demonstra importante para o nosso estudo, normalmente desejamos extrair mais informações a respeito da relação entre as vars. , tais como estimar um modelo (equação matemática) que a represente, realizar predições, etc. Um modo de avançarmos mais nesta análise é realizarmos uma Análise de Regressão.

  9. Quando realizo uma regressão linear quero estimar uma função linear ( f(Y) = a + bX) que represente a relação entre duas vars. Então primeiro preciso definir quem será a var. independente (X), a que “tentará” explicar a var. dependente (Y). Portanto desejoestimar a reta que melhor represente a relação entre as vars. X e Y, ou em outra palavras, o modelo linear (reta) que exprima a reação de Y conforme X varia Suposições para a realização da análise de regressão: 1) Cada observação das variáveis X e Y são independentes uma das outras 2) É necessário homocedasticidade das variâncias de Y para cada valor X Suposição contornável 3)IMPORTANTE: As vars. não precisam ter dist. Normal, mas o erro ou resíduo necessita dist. Normal. Pouco citado.

  10. Então na reta Y = a +bX necessito estimar ‘a’ (B0) conhecido por coeficiente linear ou intercepto e ‘b’(B1) conhecido por coeficiente angular(slope) através do método dos mínimos quadrados. O método dos mínimos quadrados garante que a reta ajustada tem a propriedade que a soma das distâncias dos pontos (erros ou resíduos) à reta ajustada é a menor possível. O método mostra que b é estima- do através da seguinte fórmula:

  11. Com a estimativa do slope (B1) posso estimar ‘a’ (B0) através da fórmula: No Minitab, Stats, ‘Regression’ e ‘Regression’ Na tela do Regression, aloco a var.Y a dependente, a que eu desejo que sejá explicada em “Response”; e a var.X, a independente, a que vai explicar, a preditora, que vai predizer, em “Predictors”. Vou também ativar os módulos “Graphs” e “Results”

  12. Em Graphs deixo ‘Regular’ e marco “Residuals vs fits” Em Results marco a 2a. opção Interpretando a saída temos em (1) a reta ajustada, em (2) as estimativas dos parâmetros, seu erro padrão e um teste para a sua significância *, demonstrando que ambos são significativos, depois temos a estatística R2** e finalmente em (3) um tabela de ANOVA equivalente à já estudada

  13. * O teste de hipótese associado ao p-value é H0: estimativa do slope = 0 X H1 Estimativa do slope (b ou B1)  0. Para que a regressão faça sentido, i é, o ajuste seja significativo é necessário REJEITAR H0, o slope têm de ser diferente de 0, senão, se for = 0 temos uma reta como da fig. abaixo. Neste caso para qualquer valor de X, a reta me fornecerá o mesmo valor de Y, logo não faz sentido este ajuste, não me serve para nada. ** A estatística R2 indica o quanto da variação de Y está sendo ‘explicada pela variação de X em percentual. No nosso caso 47% da variação de Y é explicada por X. O slope de 2,52 pode ser interpretado como que a cada aumento de 1 unidade de X equivale a um aumento de 2,5 unidades de Y em média.

  14. O gráfico que pedimos no módulo Graphs é conhecido por Gráfico dos Resíduos e “mostra” a distância de cada ponto estimado do ponto observado. É importante que eles estejam aleatoriamente distribuídos em torno do 0 (linha tracejada) pois indica que o nosso ajuste não tem tendências. Um gráfico de resíduos como o ao lado indica que o ajuste quadrático é o mais indicado. Y =a + bX + cX2. Para cada gráfico de resíduos que foge da aleatoriedade há um motivo e correções no modelo são necessárias.

  15. Existe uma exceção quanto à independência dos valores das vars. X e Y é quando a var. X refere-se ao tempo e são realizadas medidas repetidas nas mesmas unidades amostrais ao longo do tempo, por exemplo, verifico se o volume do rim das gestantes aumenta ao longo do tempo, então observo o volume das mesmas gestantes ao longo de várias semanas gestacionais, ou o desempenho de atletas no tempo conforme os treinamentos vão ocorrendo. Semana Vol 8 15 8 14 12 20 Mesma observação, mesma unidade amostral 12 22 16 25 16 22 Lembre-se sempre de verificar o diagrama de dispersão para ver se é mesmo a reta o melhor ajuste, do mesmo modo pode-se ajustar modelos quadráticos, exponenciais, logísticos, ...

  16. Tudo o que foi visto referia-se a uma relação linear entre as duas variáveis, porém nem sempre a relação entre 2 vars. é linear, ela pode seguir outro pa- drão: quadrática, cúbica, exponencial, etc... Quadrático: Y = a + bX + cX² Exponencial: Y = e↑(a + bX) No Minitab vamos em ´Regression´ depois em “Fitted Line Plot.”

  17. Nesta tela colocamos na var. respos- ta (dependente) a var. consumo, e na var. preditora (independente) a var. temperatura. O interesse é verificar como o consumo de energia de uma máquina varia, depende, da tempera- tura. Inicialmente testamos um modelo linear, para isso basta clicar em ´Linear´ no “Type of Regression Model”. E OK. No output dos resultados temos um R² = 0% e um p = 0.67, portanto o ajuste linear não é adequado. No output gráfico temos a reta ajusta- da, onde fica claro que o modelo line- ar não é indicado para esta relação.

  18. Fazendo a opção pelo modelo quadrático temos: No output de resultados temos a equação estimada (Consumo = 128,7 – 13,1*Tem + 0.328*Temp²), o R² = 73,4% , um p = 0.004 demonstrando que o ajuste qua- drático foi bastante significativo. No output gráfico verificamos que o ajuste quadrático realmente é bastante representativo da relação entre consumo e tempo.

  19. Fazendo a opção pelo modelo cúbico temos: No output temos a equação estimada, o R² = 84.0% , e o “p“ do modelo (0.003) demonstrando ser o mesmo significativo. Abaixo temos o gráfico do modelo cúbico estimado. Observe que no último quadro da tela de resultados, temos uma tabela com probabilidades para o linear (0.67), o quadrático (0.001), e o cúbico (0.055), com base nesta tabela escolhemos o modelo quadrático como modelo final. O ganho do R² do cúbico para o qua- drático ( de 73,4% para 84%,0) é pou- co p/ justificar a inclusão de um ele- mento a mais na equação.

  20. Normalmente, quando temos dois modelos visando esclarecer uma relação entre duas vars., se não há um ganho considerável de R² e de “p” opta-se pelo modelo mais simples, aquele que possuir menos ´elementos´na sua forma, na sua equação. Como visto anteriormente, podemos estar interessados em analisar o efeito de mais de uma variável independente sobre a var. dependente.Multivariada Tudo o que foi dito anteriormente sobre análise multivariada na aula de Anova é válido aqui,a diferença é que nossas vars. independentes são vars. numéricas ou qualitativas ordinais, quando não categorizadas. Nesta situação também pode-se testar a interação, mas é menos usual do que quando temos vars. categorizadas. Deseja-se estudar a influência das vars. idade, e9 e e10 sobre a variável Etotal. No módulo da “Regression” alocamos as variáveis independentes em “Predictors” e a dependente em “Response”. E OK.

  21. No output temos a equação estimada: Etot = 22.2 + 0.27*Idade + 1.66*e9 + 2.01*e10. Temos uma tabela da Anova para o mo- delo completo (p < 0.001); o teste de hi- pótese a que se refere o p-value é que pelo menos um dos coeficientes das vars. preditoras é significativamente diferente de 0. Na tabela do meio temos as estimativas dos coeficientes de cada variável, seus respectivos erros padrões e um teste de significância para cada coefici- ente. Temos ainda um R² = 41.1% Podemos notar que a var. Idade não está contribuindo para o modelo, logo podemos realizar uma nova análise retirando a Idade do rol de vars. predito- ras. Basta ir no módulo regressão e retirar Idade a variável Idade e executar novamente.

  22. No novo output temos a nova equação sem Idade. Observe que o modelo con- tinuou bastante significativo (p do mo- delo total < 0.001); o R² não sofreu al- teração, o que demonstra que Idade realmente não acrescentava nada na ´explicação’ de Etotal Na tabela do meio verificamos que as vars. que permaneceram no modelo têm todas p-value significativos, ou seja, contribuem para o modelo, por- tanto encerro minha análise com um modelo onde todas as vars. são sig- nificativas. Etotal = 27,9 +1.67*e9 + 2.01*e10.

  23. Tal qual na Análise de Variância, podemos ter a situação em que há muitas variáveis independentes. Pode-se verificar o coef. de correlação de cada uma das vars. independen- tes com a var. independente e selecionarmos aquelas que apresentarem um valor do coef. de correlação acima de um determinado valor ou aquelas que forem significativas. Após a seleção das vars. que comporão o modelo inicial pode-se realizar o procedimento anteriormente visto de, passo a passo, ir excluindo-se as vars. que não forem significativas ( p ≤ 0.05). Passo a passo = Stepwise . Procedimento também fornecido pelo Minitab Neste tipo de análise também é possível verificar a interação entre duas ou vars. independentes, mas não é muito comum encontrarmos. A interação significativa aqui, como na Anova, indica que a relação entre uma var. de- pendente e a var. independente varia conforme os valores da outra var. dep. Na regressão multivariada pode ocorrer um problema chamado: MULTICOLINEARIDADE: Quando há um forte correlação(r > 0,60) en- tre duas ou mais das variáveis independentes Problemas com as estima- tivas e p-values. Solução é excluir uma (ou mais) das vars. da análise.

More Related