1 / 62

Estatística

Universidade Federal de Alagoas Centro de Tecnologia. Estatística. Aula 25. Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado pelo Prof. Christiano Cantarelli Rodrigues. Aula 25. Análise de Regressão. Correlação. Introdução.

Download Presentation

Estatística

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Universidade Federal de Alagoas Centro de Tecnologia Estatística Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaboradopelo Prof. ChristianoCantarelliRodrigues

  2. Aula 25 • Análise de Regressão • Correlação

  3. Introdução Existe relação entre o tempo em sala de aula e o salário? Existe relação entre a temperatura e o nível de oxigênio dissolvido em um rio? Existe relação entre a fração de área impermeável em um lote e a vazão gerada após uma chuva? Existe relação entre o nível de fibra de carbono em um material em que é fabricada uma estrutura e a resistência desta ao impacto? Existe relação entre as vazões médias mensais de 2 postos de monitoramento próximos? Existe relação entre o no de motos vendidas e o no de acidentes de trânsito?

  4. Análise de Regressão Técnica estatística usada para modelar e investigar a relação entre 2 ou mais variáveis a partir de dados amostrais 1) Pode ser usada para construir um modelo para prever um fenômeno  exemplo: ano que vem, se forem vendidas x motos, teremos y acidentes ... 2) Pode ser usado também para otimizar um processo, determinar as variáveis que melhoram resposta de um processo ou para controlar um processo  exemplo: modificar a temperatura num experimento não modifica em nada os resultados, mas se for modificado tal composto, o efeito é o desejado

  5. Análise de Regressão Suponha que um engenheiro esteja interessado em saber se a porcentagem de hidrocarbonetos presente em um condensador principal de uma unidade de destilação tem relação com a pureza do oxigênio produzido em um processo químico Chamando de x a pureza (%) e y a quantidade de hidrocarboneto (reagente, também em %)  traçar-se primeiramente um diagrama de dispersão A seguir os dados e o gráfico

  6. Análise de Regressão Diagrama de dispersão Embora não vejamos uma curva, mas sim pontos dispersos, há forte indicação de que eles repousam aleatoriamente em torno de uma reta

  7. Análise de Regressão Tomando x = 1,2, esperaríamos que seu valor de y caísse na reta

  8. Mas caiu aqui Análise de Regressão esperaríamos que y(1,2) caísse aqui Isto ocorre porque Y é uma v.a.

  9. Análise de Regressão Se Y é uma v.a.  possui uma distribuição de probabilidade  possui valor esperado e possui variância Para um dado valor de x (tal como x = 1,2), Y possui valor esperado ou média que é aquele que esperaríamos que caísse bem na reta Então a média da v.a. Y está relacionada com x pela relação linear seguinte:

  10. Análise de Regressão

  11. Análise de Regressão Coeficientes de Regressão Interseção da reta Inclinação da reta A média de Y é uma função linear de x Mas um valor real qualquer observado y não cai exatamente na reta

  12. Análise de Regressão y e y = m(Y|x) + e m(Y|x) = b0 + b1x x Modelo Linear Probabilístico  maneira mais apropriada para generalizar Modelo de Regressão Linear Simples Erro aleatório

  13. Análise de Regressão Modelo de regressão linear simples  possui apenas uma variável independente x  regressor v. a. Y: Valor esperado Variância

  14. Análise de Regressão Supondo que a v.a. e tenha valor esperado (média) 0 e variância s2 • o modelo verdadeiro de regressão é uma linha de valores médios • b1 é a mudança média de Y para uma mudança unítária de x

  15. Análise de Regressão Supondo que a v.a. e tenha valor esperado (média) 0 e variância s2 • A variabilidade de Y, em um valor particular de x, é determinada pela variância do erro s2 • Essa variância é a mesma para cada x  distribuição de valores ao redor da média m(Y|x)

  16. Regressão Linear Simples Possui apenas uma variável independente x  regressor Possui apenas uma variável dependente aleatória Y  variável de resposta Nosso objetivo é estimar os parâmetros populacionais b0 e b1, ou seja, teremos estimativas pontuais, vindas de amostras retirada de 2 populações Que populações? Estimar

  17. Regressão Linear Simples As populações são de X e Y Y b0 e b1 X A regressão linear simples supõe ser possível uma relação linear entre as 2 populações Amostra x1, x2, ..., xn Amostra y1, y2, ..., yn Estimativas pontuais de b0 e b1 A estimativa dos parâmetros do modelo pode ser feita pela estimativa dos mínimos quadrados:

  18. Regressão Linear Simples Fórmulas Reta que melhor se ajusta aos pontos

  19. Regressão Linear Simples Modelo de Regressão Linear Simples Amostras x,y Resíduo do Modelo de Regressão Linear Simples

  20. Regressão Linear Simples Como se obtiveram estas fórmulas? Para cada ponto xi, yi Logo, isolando o resíduo ei Criando a função abaixo, derivando em relação aos estimadores de b0 e b1 e igualando a zero  chagamos nas fórmulas e  método dos mínimos quadrados

  21. Aplicações Exemplo da relação entre a porcentagem de hidrocarbonetos e a pureza do oxigênio produzido em um processo químico

  22. Aplicações Exemplo:

  23. Aplicações

  24. Aplicações Resíduo do Modelo de Regressão Linear Simples

  25. Propriedades dos estimadores Já vimos que Y e e são variáveis aleatórias Vimos também que Var(Y) = Var(e) = s2, mas E(Y) = mY/x (reta de regressão) e E(e) = 0

  26. Propriedades dos estimadores Os estimadores também são variáveis aleatórias Pode-se mostrar que  Estimador não tendencioso de s2 onde: SQ  soma dos quadrados, dos erros (SQE) e total (SQT)

  27. Testes de hipótesesnaregressão linear O primeiro teste que veremos é para a significância da regressão, ou seja, responder a pergunta: existe evidência suficiente para afirmarmos que há uma relação linear entre x e y? Teste t Tabela ANOVA  teste F Isto pode ser feito de 2 formas • Suposições: • A componente do erro no modelo é uma v.a. que segue uma distribuição normal com média 0 e variância s2 e ~ N(0, s2); • Quanto as demais v.a.  Y ~ N(bo+b1x, s2), e

  28. Testes de hipótesesnaregressão linear Usando o teste t para b1 : H0: b1 = b1,0 a inclinação da reta é igual a um valor constante b1,0 H1: b1 ≠ b1,0 Estatística de teste: Se as suposições estiverem certas esta estatística segue a distribuição t com gl = n-2, sujeito a H0 acima. Rejeitamos H0 se |t| > tc, onde tc = ta,n-2

  29. Testes de hipótesesnaregressão linear Usando o teste t para b0 : H0: b0 = b0,0 a inclinação da reta é igual a um valor constante b0,0 H1: b0 ≠ b0,0 Estatística de teste: Se as suposições estiverem certas esta estatística segue a distribuição t com gl = n-2, sujeito a H0 acima. Rejeitamos H0 se |t| > tc, onde tc = ta,n-2

  30. Testes de hipótesesnaregressão linear Usaremos o teste t para b1 para b1,0 = 0, ou seja: H0: b1 = 0 a inclinação da reta é nula  não há relação linear entre x e Y H1: b1 ≠ 0 Estatística de teste: Verificaremos a significância da regressão Casos onde H0: b1 = 0não é rejeitada

  31. Testes de hipótesesnaregressão linear Verificaremos a significância da regressão Casos onde H0: b1 = 0é rejeitada

  32. Aplicações Continuação do exemplo H0: b1 = 0 H1: b1 ≠ 0 Calculados antes  Precisamos agora

  33. Aplicações Continuação do exemplo Onde Sxy = 10,18 (calculado antes) adotando a = 0,05 (2 caudas), com gl = n-2 = 18: tc = 2,101  rejeita H0  há evidências suficiente para a afirmação da relação linear entre x e y

  34. ANOVA: testar a significânciadaregressão Outra forma de fazer o mesmo teste é através da tabela ANOVA

  35. Aplicações Continuação do exemplo Fc = F0,05;1;18 = 4,4139  rejeita H0

  36. ANOVA: testar a significânciadaregressão Qual o significado de cada soma SQ da ANOVA? Soma Quadrática Total  variabilidade total Soma Quadrática da Regressão  variabilidade devido à linha de regressão Soma Quadrática dos Erros  variabilidade residual sem explicação pela linha de regressão

  37. ANOVA: testar a significânciadaregressão Qual o significado de cada soma SQ da ANOVA? Desvio ou variação explicada  é melhor a estimativa 13 do que simplesmente a média 9 para o valor real 19

  38. IC para a respostamédia Para um valor especificado de x, tal como x0, pode ser construído um IC para a resposta média  IC em torno da linha de regressão No ponto x0, o valor esperado é Já a estimativa do valor esperado é

  39. Nível de confiança IC para a respostamédia x0 - + Ex0 Ex0  Estimador não tendencioso de x

  40. IC para a respostamédia Como temos normalmente distribuídos: Usando como estimativa de • Margem de erro da • predição em x0 tc = ta,n-2 (2 caudas)

  41. Aplicações Continuação do exemplo Construir o intervalo de confiança para a resposta média, adotando NC = 95% Estimativa pontual para qualquer x0 Margem de erro para qualquer x0 tc = 2,101

  42. Aplicações Calculando a resposta média e a margem de erro para vários valores de x0, surge o gráfico abaixo

  43. Adequação do modelo de regressão • Ajustar um modelo de regressão requer várias suposições • A estimação dos parâmetros b0 e b1 requer que os erros e sejam v.a. não correlacionadas com média zero e variância s2 constante • Testes de hipótese e construção de IC requerem que os erros e tenham distribuição normal A análise dos resíduos ou análise residual e o coeficiente de determinação R2 nos ajudam a verificar se o modelo é realmente adequado

  44. Adequação análise dos resíduos A análise dos resíduos é útil para verificar se eles seguem a distribuição normal Histograma de frequência dos resíduos Gráfico de probabilidade normal dos resíduos Pode-se construir Gráficos dos resíduos contra valores de y ou x Vamos ver nas aplicações

  45. Aplicações Continuação do exemplo

  46. Aplicações Continuação do exemplo Gráficos dos resíduos contra valores de y ou x

  47. Adequação análise dos resíduos Que tipos de gráficos podem aparecer? Crescendo com o tempo ou com a magnitude de y ou x Situação ideal Variância crescendo Testar outros modelos (parabólico, por exemplo) Variâncias desiguais Modelo linear inadequado

  48. Adequação coeficiente R2 Lembrando ... Soma Quadrática Total  variabilidade total Soma Quadrática da Regressão  variabilidade devido à linha de regressão Soma Quadrática dos Erros  variabilidade residual sem explicação pela linha de regressão

  49. Adequação coeficiente R2 Dividindo a equação por SQT  Coeficiente de determinação Frequentemente usado para julgar a adequação do modelo  quantidade de variabilidade nos dados explicada ou considerada pelo modelo de regressão 0 ≤ R2≤ 1

  50. Adequação coeficiente R2 • O coeficiente de determinação deve ser utilizado com cuidado • R2 sempre aumentará se adicionarmos uma variável ao modelo, porém isso não significa necessariamente que o modelo novo é melhor que o antigo • Mesmo se x e y estiverem relacionados de maneira não linear, R2 será frequentemente grande • Mesmo com R2 grande, isto não implica que o modelo de regressão forneça previsões exatas para observações futuras

More Related