310 likes | 369 Views
Regressão e Previsão Numérica. Objetivos. Obter um modelo que explique o comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições. Amostra. A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do
E N D
Regressão e Previsão Numérica
Objetivos Obter um modelo que explique o comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições Amostra A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do problema considerando as operações rotineiras, e as exceções Planejamento Definição da metodologia a ser aplicada, avaliação da adequação do modelo e interpretação dos resultados
Previsão • Previsão é similar à Classificação • Primeiro construa um modelo • Depois, use o modelo para a previsão do valor desconhecido • O método mais importante de previsão é a regressão • Regressão linear e múltipla • Regressão não linear • Previsão é diferente de Classificação • Na classificação, a variável a “explicar” é categórica • Na previsão, a variável a “explicar” é contínua
Relação entre Variáveis Com muita freqüência, na prática, verifica-se que existe uma relação entre duas ou mais varáveis. Exemplo: Peso x Altura Circunferência x Raio Quantidade de vapor x Temperatura
Ajustamento de curva Para ajustar uma equação que relacione as variáveis, é necessário: • Colecionar dados que indiquem valores • Colocar os dados em um sistema de coordenadas cartesianas (Diagrama de dispersão) • Visualizar a curva de dispersão (curva regular que aproxima os dados)
Correlação Linear É quando os dados parecem estar bem próximos a uma linha reta. É o tipo mais simples de ajustamento e pode ser descrito pela equação: Y = 0+ 1X
Correlação Não-Linear Quando os dados não estão próximos a uma linha reta. Existem várias equações: Y = 0+ 1X + 2X2 Y = 0+ 1X + 2X2 +3X3 Y = 0+ 1X + 2X2 +3X3+ ... + nXn
Regressão Linear Múltipla Sejam os valores de uma variável dependente (resposta) Y relacionados com os valores valores de m variáveis independentes Xk por meio de um modelo estocástico Yt = 0+ 1X1+ 2X2+...+ mXm + t t = 1,...,n k – parâmetro desconhecido que indica o grau de associação linear da variável independente Xk com a variável dependente Y t – erro aleatório devido a natureza estocástica de Y
Suposições para a análise do modelo de Regressão Linear Resíduos com variância constante, não correlacionados e média zero Normalidade nos resíduos (não necessariamente) Número de parâmetros menor que o número de observações (problema de overfitting)
Métodos de Estimação dos Parâmetros Mínimos Quadrados Modelo Y = X + • Y – vetor de respostas (n 1) • X - matriz de observações independentes (n p) • - vetor de parâmetros - vetor de erros (n 1)
Método dos mínimos quadrados Para evitar o critério individual na construção de retas, parábolas ou outras curvas de ajustamento que se adaptem ao conjunto de dados, é necessário instituir uma definição da “melhor reta de ajustamento”, da “melhor parábola de ajustamento”, etc. Para um dado valor X, por exemplo X1, haverá uma diferença entre o valor Y1 e o valor correspondente na curva. Representamos esta diferença por 1 que é muitas vezes designado como desvio, erro ou resíduo e pode ser positivo negativo ou nulo.
Método dos mínimos quadrados De todas as curvas que se ajustam a um conjunto de pontos, a que tem a propriedade de apresentar um mínimo valor de 12+ 22 + 32 + ...+ n2 é denominada a melhor curva de ajustamento. Diz-se que uma curva, que apresenta esta propriedade, ajusta os dados no sentido dos mínimos quadrados é denominada curva de mínimos quadrados.
Métodos de Mínimos Quadrados com suposição de normalidade A idéia é obter uma estimativa b para o vetor de parâmetros que minimize a soma de quadrados dos erros ’ Como E()=0 então o modelo é expresso por E(Y) = X A soma de quadrados de resíduos ’ = (Y - X)’ (Y - X) = Y’ Y - ’X’Y – Y’X + ’X’X = Y’ Y - 2’X’Y + ’X’X
Condição de mínimo A solução do sistema é Vetor de valores ajustados
O erro nas observações é: Para n observações, a média do erro é:
Supondo que a média do erro é zero Substituindo b0 na equação de erro vamos obter:
Experimento 1 25 pares de observações onde Y =quantidade de vapor usado por mês e X = temperatura em graus Farenheit No obs. No obs. Y X Y X 28.1 1 10.98 35.3 13 11.88 2 11.13 29.7 14 9.57 39.1 3 12.51 30.8 15 10.94 46.8 4 8.40 58.8 16 9.58 48.5 5 9.27 61.4 17 10.09 59.3 6 8.73 71.3 18 8.11 70.0 7 6.36 74.4 19 6.83 70.0 8 8.50 76.7 20 8.88 74.5 9 7.82 70.7 21 7.68 72.1 10 9.14 57.5 22 8.47 58.1 11 8.24 46.4 23 8.86 44.6 24 10.36 33.4 12 12.19 28.9 25 11.08 28.6
Para n = 25 e Portanto
Gráfico 1: Temperatura versus Qtd de vapor Gráfico 2: Temperatura versus valores ajustados O gráfico 1 mostra que existe uma relação linear entre a qtd de vapor e a temperatura. O gráfico 2 ilustra a regressão linear.
Avaliação de desempenho do modelo de Regressão Estatística R2 – mede a variabilidade de explicada pelo modelo de regressão Exemplo: Para os dados do experimento 1
Teste de aceitação do modelo H0: = 0 H1: 0 Tabela 1 : Análise de Variância Soma de Quadrados ( SS) Soma de Quadrados média (MS) Estatística do teste (F) Graus de Liberdade Variação p-1 Regressão SSReg/(p-1) Resíduo n-p s2 = SSRes/(n-p) Total correto por n-1 F tem distribuição com p-1,n-p graus de liberdade e nível de significância 1-
Teste de aceitação do modelo H0: Rejeita-se o modelo H1: Aceita-se o modelo Região de aceitação da hipótese H0
Soma de Quadrados ( SS) Soma de Quadrados média MS Valor da Estatística do teste (F) Graus de Liberdade Variação 1 45.59 Regressão 0.79 Resíduo 23 Total correto por 24 Exemplo: Considere o modelo do exemplo anterior Tabela 1 : Análise de Variância 45.59 57.54 18.22 63.81 Valor de F1,22(0,95) = 4.28 Como a estatística F=57.54 > 4.28 rejeitamos H0
Teste de significância do vetor de parâmetros () H0: i =0 (i = 1,...,p) H1: i 0 Estatística do teste T tem distribuição t-student com n-p graus de liberdade Região de aceitação da hipótese H0
Regression Analysis: C1 versus C2 The regression equation is C1 = 13,6 - 0,0798 C2 Predictor Coef SE Coef T P Constant 13,6230 0,5815 23,43 0,000 C2 -0,07983 0,01052 -7,59 0,000 S = 0,8901 R-Sq = 71,4% R-Sq(adj) = 70,2% Analysis of Variance Source DF SS MS F P Regression 1 45,592 45,592 57,54 0,000 Residual Error 23 18,223 0,792 Total 24 63,816
Intervalo de confiança para o vetor b b tem distribuição t-student(n-p) i = 1,...p Exemplo: Continuando com o exemplo anterior H0: 1 = 0 (i = 1,...,p) H1: 1 0 |T| =| -0.07980/0.0105| = 7.6 > t23(0.975)=2.069 Rejeita H0 Intervalo de confiança : -0.1016 < 1< -0.0581
Diagnóstico da Regressão Análise do modelo Exemplo 1 Os resultados do ajustamento revelam que : a variável temperatura é significativa no modelo (|t|=2.069 > 2) a variabilidade dos dados explicada pelo modelo é boa (R2 = 0.71) o valor da F=57.54 > F1,23(5%) indica que a regressão é significativa ao nível de confiança de 95%
Diagnóstico da Regressão Análise gráfica dos resíduos 1 – Normalidade da variável resposta 2 – Independência das observações 3 – Se uma variável explicativa não incluída no modelo é relevante
Diagnóstico da Regressão Os resíduos são aleatórios. Os valores ajustados não apresentam tendência
Diagnóstico da Regressão Os resíduos apresentam normalidade. O modelo proposto se ajusta aos dados, pois as hipóteses básicas da regressão clássica são satisfeitas.
Modelos de Regressão Não Linear A não linearidade é dada pela função de regressão Yt = 0+ 1X1+ X2 + t t = 1,...,n Um método de estimação: Mínimos Quadrados não Lineares