220 likes | 600 Views
Diagramas de dispersão. forma gráfica de visualizar uma possível relação entre duas variáveis. Diagramas de dispersão. Correlação.
E N D
Diagramas de dispersão • forma gráfica de visualizar uma possível relação entre duas variáveis
Correlação O coeficiente de correlação de Pearson é uma medida da 'qualidade' da aproximação da relação entre duas variáveis por uma recta, ou seja, a correlação mede a 'força' da associação linear entre duas variáveis. r – coeficiente de correlação de Pearson na amostra - coeficiente de correlação de Pearson na população
Correlação O coeficiente de correlação de Pearson varia entre -1 e 1. Quanto mais próximo estiver de 1 ou -1, mais forte é a associação linear entre as duas variáveis
Correlação No estudo da relação entre o consumo de vegetais e taxa de mortalidade no sexo masculino, obtém-se uma correlação de r = -0.814 r2 é interpretado como a percentagem de variação explicada por uma das variáveis em relação à outra. No caso estudado, pode-se dizer que o consumo de vegetais explica 66% (0.814)2 da mortalidade no sexo masculino.
Correlação • Não usar o r quando: • há uma relação não linear entre as variáveis • os dados incluem mais de uma observação por indivíduo • há valores extremos • os dados dividem-se em dois subgrupos
Regressão linear simples A regressão linear é um modelo matemático usado para estudar a relação entre duas variáveis - uma contínua e outra contínua ou ordinal - e a partir do qual se tenta prever os valores de uma das variáveis em função da outra. No estudo sobre o consumo de vegetais e taxa de mortalidade por cancro do estômago, a situação mais natural é tentar prever qual a taxa de mortalidade (variável dependente) para um determinado consumo de vegetais (variável independente) e não o contrário.
Regressão linear simples tx mortalidade = b0 + b1 * consumo de vegetais b0eb1 são calculados de tal maneira que a soma das distâncias à recta seja a menor possível, ou seja, b0eb1 são calculados de forma a minimizar a soma das distâncias à recta.
Regressão linear simples tx mortalidade = b0 + b1 * consumo de vegetais b0eb1 são calculados de tal maneira que a soma das distâncias à recta seja a menor possível, ou seja, b0eb1 são calculados de forma a minimizar a soma das distâncias à recta. tx mortalidade = 54.503 - 0.102 * consumo de vegetais
Regressão linear simples tx mortalidade = b0 + b1 * consumo de vegetais tx mortalidade = 54.503 - 0.102 * consumo de vegetais B0= 54.503 = taxa de mortalidade prevista com um consumo nulo de vegetais. B1= 0.102 = a diminuição (porque o valor de b1 é negativo) prevista da taxa de mortalidade para o aumento de 1 unidade no consumo de vegetais.
Regressão linear simples Tabela ANOVA: indicação da quantidade de variação explicada pelo modelo. No caso da taxa de mortalidade do sexo masculino a variação total é de 1036,118 . Quando se considera o consumo de vegetais, a variação da mortalidade explicada é de 685,986; que aparece na tabela com a designação de "Regression" (quantidade de variação explicada pelo modelo). O resíduo (350,132) é simplesmente a variação que fica por explicar, ou seja a diferença da variação total e variação explicada.
Regressão linear simples O quociente da variação explicada pela variação total 685,986/1036,118=0.66 é a percentagem de variação explicada Como seria de esperar este valor é igual quadrado do coeficiente de correlação (r2 = 0,81422 = 0,66) que também indica a percentagem de variação explicada.
Regressão linear simples Assunções: A variável dependente tem que ser contínua Para cada valor fixo da variável independente, a variável dependente segue uma distribuição normal, e todas estas distribuições normais têm um desvio padrão igual Como verificar? Para cada observação x, chama-se resido ao valor observado de y menos o valor de y calculado com a equação da recta. Podemos usar os resíduos para testar as assumpções
Leituras • Livro: Medical Statistics at a Glance. Aviva Petrie, Caroline Sabin. Blackwell Science. 2000 Capítulos: 26, 27 e 28 MedStatWeb: http://stat2.med.up.pt Capítulo: Correlação e regressão linear simples