1 / 31

Regressão e Previsão Numérica

Regressão e Previsão Numérica. Objetivos. Obter um modelo que explique o comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições. Amostra. A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do

Download Presentation

Regressão e Previsão Numérica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regressão e Previsão Numérica

  2. Objetivos Obter um modelo que explique o comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições Amostra A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do problema considerando as operações rotineiras, e as exceções Planejamento Definição da metodologia a ser aplicada, avaliação da adequação do modelo e interpretação dos resultados

  3. Previsão • Previsão é similar à Classificação • Primeiro construa um modelo • Depois, use o modelo para a previsão do valor desconhecido • O método mais importante de previsão é a regressão • Regressão linear e múltipla • Regressão não linear • Previsão é diferente de Classificação • Na classificação, a variável a “explicar” é categórica • Na previsão, a variável a “explicar” é contínua

  4. Relação entre Variáveis Com muita freqüência, na prática, verifica-se que existe uma relação entre duas ou mais varáveis. Exemplo: Peso x Altura Circunferência x Raio Quantidade de vapor x Temperatura

  5. Ajustamento de curva Para ajustar uma equação que relacione as variáveis, é necessário: • Colecionar dados que indiquem valores • Colocar os dados em um sistema de coordenadas cartesianas (Diagrama de dispersão) • Visualizar a curva de dispersão (curva regular que aproxima os dados)

  6. Correlação Linear É quando os dados parecem estar bem próximos a uma linha reta. É o tipo mais simples de ajustamento e pode ser descrito pela equação: Y = 0+ 1X

  7. Correlação Não-Linear Quando os dados não estão próximos a uma linha reta. Existem várias equações: Y = 0+ 1X + 2X2 Y = 0+ 1X + 2X2 +3X3 Y = 0+ 1X + 2X2 +3X3+ ... + nXn

  8. Regressão Linear Múltipla Sejam os valores de uma variável dependente (resposta) Y relacionados com os valores valores de m variáveis independentes Xk por meio de um modelo estocástico Yt = 0+ 1X1+ 2X2+...+ mXm + t t = 1,...,n k – parâmetro desconhecido que indica o grau de associação linear da variável independente Xk com a variável dependente Y t – erro aleatório devido a natureza estocástica de Y

  9. Suposições para a análise do modelo de Regressão Linear Resíduos com variância constante, não correlacionados e média zero Normalidade nos resíduos (não necessariamente) Número de parâmetros menor que o número de observações (problema de overfitting)

  10. Métodos de Estimação dos Parâmetros Mínimos Quadrados Modelo Y = X +  • Y – vetor de respostas (n  1) • X - matriz de observações independentes (n  p) • - vetor de parâmetros  - vetor de erros (n  1)

  11. Método dos mínimos quadrados Para evitar o critério individual na construção de retas, parábolas ou outras curvas de ajustamento que se adaptem ao conjunto de dados, é necessário instituir uma definição da “melhor reta de ajustamento”, da “melhor parábola de ajustamento”, etc. Para um dado valor X, por exemplo X1, haverá uma diferença entre o valor Y1 e o valor correspondente na curva. Representamos esta diferença por 1 que é muitas vezes designado como desvio, erro ou resíduo e pode ser positivo negativo ou nulo.

  12. Método dos mínimos quadrados De todas as curvas que se ajustam a um conjunto de pontos, a que tem a propriedade de apresentar um mínimo valor de  12+ 22 + 32 + ...+ n2 é denominada a melhor curva de ajustamento. Diz-se que uma curva, que apresenta esta propriedade, ajusta os dados no sentido dos mínimos quadrados é denominada curva de mínimos quadrados.

  13. Métodos de Mínimos Quadrados com suposição de normalidade A idéia é obter uma estimativa b para o vetor de parâmetros  que minimize a soma de quadrados dos erros ’ Como E()=0 então o modelo é expresso por E(Y) = X A soma de quadrados de resíduos ’  = (Y - X)’ (Y - X) = Y’ Y - ’X’Y – Y’X + ’X’X = Y’ Y - 2’X’Y + ’X’X

  14. Condição de mínimo A solução do sistema é Vetor de valores ajustados

  15. O erro nas observações é: Para n observações, a média do erro é:

  16. Supondo que a média do erro é zero Substituindo b0 na equação de erro vamos obter:

  17. Experimento 1 25 pares de observações onde Y =quantidade de vapor usado por mês e X = temperatura em graus Farenheit No obs. No obs. Y X Y X 28.1 1 10.98 35.3 13 11.88 2 11.13 29.7 14 9.57 39.1 3 12.51 30.8 15 10.94 46.8 4 8.40 58.8 16 9.58 48.5 5 9.27 61.4 17 10.09 59.3 6 8.73 71.3 18 8.11 70.0 7 6.36 74.4 19 6.83 70.0 8 8.50 76.7 20 8.88 74.5 9 7.82 70.7 21 7.68 72.1 10 9.14 57.5 22 8.47 58.1 11 8.24 46.4 23 8.86 44.6 24 10.36 33.4 12 12.19 28.9 25 11.08 28.6

  18. Para n = 25 e Portanto

  19. Gráfico 1: Temperatura versus Qtd de vapor Gráfico 2: Temperatura versus valores ajustados O gráfico 1 mostra que existe uma relação linear entre a qtd de vapor e a temperatura. O gráfico 2 ilustra a regressão linear.

  20. Avaliação de desempenho do modelo de Regressão Estatística R2 – mede a variabilidade de explicada pelo modelo de regressão Exemplo: Para os dados do experimento 1

  21. Teste de aceitação do modelo H0:  = 0 H1:   0 Tabela 1 : Análise de Variância Soma de Quadrados ( SS) Soma de Quadrados média (MS) Estatística do teste (F) Graus de Liberdade Variação p-1 Regressão SSReg/(p-1) Resíduo n-p s2 = SSRes/(n-p) Total correto por n-1 F tem distribuição com p-1,n-p graus de liberdade e nível de significância 1-

  22. Teste de aceitação do modelo H0: Rejeita-se o modelo H1: Aceita-se o modelo Região de aceitação da hipótese H0

  23. Soma de Quadrados ( SS) Soma de Quadrados média MS Valor da Estatística do teste (F) Graus de Liberdade Variação 1 45.59 Regressão 0.79 Resíduo 23 Total correto por 24 Exemplo: Considere o modelo do exemplo anterior Tabela 1 : Análise de Variância 45.59 57.54 18.22 63.81 Valor de F1,22(0,95) = 4.28 Como a estatística F=57.54 > 4.28 rejeitamos H0

  24. Teste de significância do vetor de parâmetros () H0: i =0 (i = 1,...,p) H1: i  0 Estatística do teste T tem distribuição t-student com n-p graus de liberdade Região de aceitação da hipótese H0

  25. Regression Analysis: C1 versus C2 The regression equation is C1 = 13,6 - 0,0798 C2 Predictor Coef SE Coef T P Constant 13,6230 0,5815 23,43 0,000 C2 -0,07983 0,01052 -7,59 0,000 S = 0,8901 R-Sq = 71,4% R-Sq(adj) = 70,2% Analysis of Variance Source DF SS MS F P Regression 1 45,592 45,592 57,54 0,000 Residual Error 23 18,223 0,792 Total 24 63,816

  26. Intervalo de confiança para o vetor b b tem distribuição t-student(n-p) i = 1,...p Exemplo: Continuando com o exemplo anterior H0: 1 = 0 (i = 1,...,p) H1: 1  0 |T| =| -0.07980/0.0105| = 7.6 > t23(0.975)=2.069 Rejeita H0 Intervalo de confiança : -0.1016 < 1< -0.0581

  27. Diagnóstico da Regressão Análise do modelo Exemplo 1 Os resultados do ajustamento revelam que : a variável temperatura é significativa no modelo (|t|=2.069 > 2) a variabilidade dos dados explicada pelo modelo é boa (R2 = 0.71) o valor da F=57.54 > F1,23(5%) indica que a regressão é significativa ao nível de confiança de 95%

  28. Diagnóstico da Regressão Análise gráfica dos resíduos 1 – Normalidade da variável resposta 2 – Independência das observações 3 – Se uma variável explicativa não incluída no modelo é relevante

  29. Diagnóstico da Regressão Os resíduos são aleatórios. Os valores ajustados não apresentam tendência

  30. Diagnóstico da Regressão Os resíduos apresentam normalidade. O modelo proposto se ajusta aos dados, pois as hipóteses básicas da regressão clássica são satisfeitas.

  31. Modelos de Regressão Não Linear A não linearidade é dada pela função de regressão Yt = 0+ 1X1+ X2 + t t = 1,...,n Um método de estimação: Mínimos Quadrados não Lineares

More Related