Regressão não linear

Regressão não linear Modelos de regressão linear e não linear Modelos de regressão linear Até o presente momento do curso, consideramos modelos lineares nos parâmetros. Por exemplo: 1) Modelo linear geral: 1) Modelo polinomial:

1) Modelo com variáveis transformadas: Os modelos lineares, podem ser escritos, na forma: Onde Xi é o vetor de observações das variáveis preditoras para o i-ésimo caso:  é o vetor dos parâmetros, e f(Xi,) representa o valor esperado E(Yi), o qual para o modelo linear é:

Nos modelos lineares, o problema de estimação dos parâmetros, cai no problema de resolver um sistema de equações lineares com relação aos coeficientes de regressão desconhecidos. Existe uma solução única e, portanto, obtemos uma forma analítica de estimação dos parâmetros. Esta forma é a mesma para qualquer modelo e qualquer conjunto de dados. Além disso, como os coeficientes são combinações lineares das observações, pela teoria estatística, demonstra-se que a distribuição amostral dos coeficientes de regressão segue uma distribuição t, assim, podemos realizar os testes de hipóteses, calcular os intervalos de confiança para esses coeficientes. Modelos de regressão não linear Existe, entretanto, muitas situações nas quais não é desejável, ou mesmo possível, descrever um fenômeno através de um modelo de regressão linear. Ao invés de se fazer uma descrição puramente empírica do fenômeno em estudo, pode-se, a partir de suposições importantes sobre o problema (freqüentemente dadas através de uma ou mais equações diferenciais), trabalhar no sentido de obter uma relação teórica entre as variáveis observáveis de interesse. O problema, diferentemente do caso linear, é que os parâmetros entram na equação de forma não linear, assim, nós não podemos simplesmente aplicar fórmulas para estimar os parâmetros do modelo.

Outra vantagem dos modelos não lineares é obter parâmetros que são facilmente interpretáveis. Em muitas situações, necessita-se menos parâmetros nos modelos não lineares do que nos lineares, isto simplifica e facilita a interpretação. Os modelos não lineares podem ser escritos como: f(Xi, ) é uma função não linear; os erros, i, tem média zero, variância constante, e não são correlacionados. Assume-se que os erros apresentam distribuição normal, são independentes e com variância constante.  é o vetor de parâmetros do modelo. Dois exemplos de modelos não lineares. 1) Modelo exponencial 0 e 1são os parâmetros do modelo; Xi são constantes conhecidas (variável preditora) e i são os termos do erro, independentes, com distribuição normal de média 0 (zero) e variância 2.

Diferenciando f com respeito a 0 e 1 obtemos (usando MAPPLE): Como estas derivadas envolvem pelo menos um dos parâmetros, o modelo é reconhecido como não linear. Um modelo exponencial mais geral: Veja figura.

Estes modelos exponenciais são muito utilizados em estudos de crescimento, onde a taxa de crescimento num dado tempo X é proporcional a quantidade de crescimento restante (final) que ocorre com o aumento do tempo, e 0 representa o crescimento máximo

2) Modelo logístico i são os termos do erro, independentes, com distribuição normal de média 0 (zero) e variância 2. A função esperada é: O modelo logístico é muito usado para variáveis qualitativas. Exemplo: acertos na cache (acerta/não acerta). Neste caso, os erros não tem mais distribuição normal com variância constante.

Alguns aspectos do uso de modelos não lineares: • os modelos não lineares tem uma base teórica, os parâmetros dos modelos fornecem um maior conhecimento sobre o fenômeno em estudo do que os modelos lineares. • os modelos não lineares, geralmente fornecem um bom ajuste, com menos parâmetros do que os modelos lineares. • A transformação de um modelo não linear em um modelo linear nos parâmetros, se por um lado facilita o processo de ajuste, implica em fazer suposições não realísticas sobre o termo dos erros (distribuição normal com variância constante); além disso, perde-se informação sobre os erros padrões dos parâmetros originais. • Além disso, existem modelos que são intrinsicamente não lineares, isto é, não podem ser linearizados por transformação. • Embora vamos usar variáveis contínuas como variáveis independentes, não há razão para que as variáveis independentes, nos modelos não lineares, sejam contínuas. Ao contrário, podemos fazer uso de variáveis dummy para indicar a presença ou ausência de um grupo, ou codificar diferenças entre indivíduos (dados de medidas repetidas).

• Estimação de modelos não lineares, é um bom exemplo de que a despeito de se obter os resultados no computador, não significa que os resultados sejam corretos ou razoáveis. A forma geral do modelo não linear Onde f(Xi, ) é a função esperada para o i-ésimo caso.

Estimação dos parâmetros Métodos: »Mínimos quadrados »Máxima verossimilhança Importante: nos modelos não lineares não é possível encontrarmos formas analíticas para os estimadores de mínimos quadrados ou máxima verossimilhança. Ao invés, métodos numéricos devem ser usados juntamente com os métodos referidos e, isto, requer cálculos computacionais intensivos. Sempre usamos softwares computacionais. Exemplo Um administrador de um hospital deseja ajustar um modelo de regressão para estimar o tempo de recuperação depois que o paciente saiu do hospital devido a uma doença grave. A variável preditora é o número de dias que o paciente ficou hospitalizado (X), e a variável resposta é um índice de prognóstico para o tempo de recuperação (Y), onde, valores grandes indicam um bom prognóstico. A seguir temos os dados e o diagrama de dispersão:

Encontrou-se na literatura que a relação entre a variável preditora e a variável resposta segue o modelo: Onde os i são os termos dos erros, independentes, com distribuição normal de média 0 (zero) e variância 2 (constante). Precisamos estimar os parâmetros 0 e 1.

Método de mínimos quadrados na regressão não linear Como no modelo de regressão linear geral, o critério de mínimos quadrados é: O critério Q deve ser minimizado com respeito aos parâmetros de regressão não linear 0, 1,..., p-1para obter as estimativas de mínimos quadrados. Métodos: 1) procura numérica e 2) equações normais de mínimos quadrados. A diferença com a regressão linear é que a solução das equações normais usualmente requer um método numérico iterativo, pois a solução analítica geralmente não pode ser encontrada.

Exemplo:para os dados de pacientes com doença grave, a função esperada é: O critério Q é dado por: Método da máxima verossimilhança: Vamos considerar que os erros i são independentes, normalmente distribuídos com variância constante. A função de máxima verossimilhança é dada por: Maximizar esta função com relação aos parâmetros, é idêntico a minimizar o somatório na parte do expoente, portanto, chega-se aos mesmos estimadores com os dois métodos.

Solução das equações normais Para obter as equações normais para um modelo não linear Precisamos minimizar o critério Q com respeito aos parâmetros 0, 1,..., p-1-. As derivadas parciais de Q com respeito aos ké:

Igualando-se as derivadas parciais a zero e, substituindo-se kpor gk (estimativas de mínimos quadrados), obtemos o sistema de equações normais (p equações, k=0,1,...,p-1): Onde g é o vetor das estimativas de mínimos quadrados gk: As equações normais (6) são não lineares nas estimativas dos parâmetros gk, portanto, difíceis de serem resolvidas. Dessa forma, vamos precisar de métodos numéricos para obter uma solução das equações normais iterativamente.

Exemplo: para os dados de pacientes com doença grave, a função esperada para o i-ésimo caso é: As derivadas parciais já foram mostradas anteriormente. Substituindo-se 0 e 1 pelas estimativas de mínimos quadrados g0e g1, as equações normais (6) são dadas por: Procedendo-se a algumas simplificações, obtemos: São equações não lineares nas estimativas dos parâmetros, assim, métodos numéricos devem ser empregados(métodos iterativos).

Método de Gauss-Newton (Procura numérica direta – Direct numerical search) Na maioria dos problemas com modelos não lineares, é mais prático encontrar as estimativas de mínimos quadrados por procedimentos de procura numérica direta do que, inicialmente, obter as equações normais e, então, usar métodos numéricos para encontrar a solução dessas equações iterativamente. O método de Gauss-Newton, também conhecido como método da linearização, usa uma expansão em série de Taylor para aproximar o modelo de regressão não linear com termos lineares e, então, aplica mínimos quadrados ordinário para estimar os parâmetros. Iterações desses passos geralmente conduzem a uma solução para o problema de regressão não linear. O método de Gauss-Newton inicia dando-se valores iniciais aos parâmetros 0, 1,..., p-1, denotados por: Esses valores iniciais podem ser obtidos de estudos anteriores, conhecimentos teóricos ou por uma grade de valores que minimize (5).

Com os valores iniciais dos parâmetros, aproximamos a função esperada f(Xi, ) para os n casos por termos lineares da expansão em série de Taylor, de primeira ordem, em torno dos valores iniciais gk(0). Obtemos para o i-ésimo caso: Aqui g(0) é o vetor dos valores iniciais dos parâmetros. Observe que as derivadas, assim como a f, são avaliadas em k=gk(0). Fazendo-se:

Podemos reescrever a aproximação (7) como: E uma aproximação para o modelo (4) é dada por: Passando fi(0) para o lado esquerdo e, denotando a diferença Yi- fi(0) por Yi(0), temos: Observe que chegamos a uma aproximação para um modelo de regressão linear.

Cada coeficiente de regressão k(0) representa a diferença entre os verdadeiros parâmetros da regressão e as estimativas iniciais dos mesmos. Assim, os coeficientes de regressão representam uma correção que deve ser feita nos coeficientes de regressão iniciais. O propósito de ajustar o modelo de regressão linear (10) é estimar os coeficientes de regressão k(0) e usar essas estimativas para corrigir as estimativas iniciais dos parâmetros de regressão. O modelo (10) na forma matricial fica:

Observe as similaridades entre o modelo de regressão linear : A matriz D faz o papel da matriz X: Podemos, portanto, estimar os parâmetros (0) pelo método de mínimos quadrados ordinários: Usar um programa de computador que faça regressão múltipla, porém não esquecer de especificar que não desejamos o intercepto.

Nós, então, usamos estas estimativas de mínimos quadrados para obter os coeficientes de regressão estimados corrigidos gk(1) por meio de (7.A): Onde gk(1)representa a estimativa corrigida de  k no fim da primeira iteração. Na forma matricial, temos: Neste ponto, nós podemos verificar se os coeficientes de regressão corrigidos representam uma melhoria na direção apropriada. Denotaremos o critério Q, calculado nos coeficientes de regressão iniciais g(0), por SQE(0), ou seja,

No final da primeira iteração, os coeficientes de regressão corrigidos são g(1). Denotaremos o critério Q, calculado nos coeficientes de regressão g(1), por SQE(1), ou seja, Se o algoritmo de Gauss-Newton está na direção correta, SQE(1) deverá ser menor do que SQE(0), pois os coeficientes de regressão no passo (1) deverão ser melhores. O método de Gauss-Newton repete o procedimento como foi descrito, com g(1) sendo, agora, usado como valores iniciais. Isto resulta num novo conjunto de estimativas corrigidas, representadas por g(2), e teremos um novo critério SQE(2). O processo iterativo continua até que as diferenças entre sucessivas estimativas dos coeficientes g(s+1)-g(s) e/ou a diferença entre sucessivas soma de quadrados de erros SQE(s-1)-SQE(s) tornam-se desprezíveis. As estimativas finais dos coeficientes de regressão são representadas por g e a soma de quadrado dos erros por SQE.

Exemplo: para os dados de pacientes com doença grave, a função é: Usando o PROC NLIN do SAS, vamos fazer a análise estatística dos dados. O programa é: data doenca; input obs dias indice; datalines; 1.000 2.000 54.000 2.000 5.000 50.000 3.000 7.000 45.000 4.000 10.000 37.000 5.000 14.000 35.000 6.000 19.000 25.000 7.000 26.000 20.000 8.000 31.000 16.000 9.000 34.000 18.000 10.000 38.000 13.000 11.000 45.000 8.000 12.000 52.000 11.000 13.000 53.000 8.000 14.000 60.000 4.000 15.000 65.000 6.000 ; proc print data=doenca; run; proc nlin data=doenca method=gauss maxiter=20; parms a=56.6646 b=-0.03797; model indice = a*exp(b*dias); der.a=exp(b*dias); der.b=a*dias*exp(b*dias); output out=doencaou p=predito r=residuo; run; Os valores iniciais de a e b, foram obtidos através de uma regressão linear simples do modelo:

Output do SAS: Non-Linear Least Squares Iterative Phase Method: Gauss-Newton Iter A B Sum of Squares 0 56.664600 -0.037970 56.086713 1 58.557844 -0.039533 49.463830 2 58.605484 -0.039585 49.459304 3 58.606531 -0.039586 49.459300 4 58.606565 -0.039586 49.459300 NOTE: Convergence criterion met. Non-Linear Least Squares Summary Statistics Source DF Sum of Squares Mean Square Regression 2 12060.540700 6030.270350 Residual 13 49.459300 3.804562 Uncorrected Total 15 12110.000000 (Corrected Total) 14 3943.333333 Parameter Estimate Asymptotic Asymptotic 95 % Std. Error Confidence Interval Lower Upper A 58.60656517 1.4721603058 55.426158088 61.786972243 B -0.03958645 0.0017112939 -0.043283475 -0.035889427

Exercício: vamos considerar os dados de pacientes com doença grave. Aplicar a transformação logarítmica e obter as estimativas iniciais dos coeficientes de regressão. A função resposta é: Aplicando o logaritmo, obtemos: Podemos aproximar o modelo exponencial pelo modelo linear:

Com o uso do PROC IML do SAS obtemos: proc iml; reset print; Y={54, 50, 45, 37, 35, 25, 20, 16, 18, 13, 8, 11, 8, 4, 6}; X={1 2, 1 5, 1 7, 1 10, 1 14, 1 19, 1 26, 1 31, 1 34, 1 38, 1 45, 1 52, 1 53, 1 60, 1 65}; YT=log(Y); XLX=X`*X; XLXinv=inv(xlx); b=XLXinv*x`*yt; b0=4,0371 b1=-0,03797

A soma de quadrados do erro no passo zero, SQE(0), requer o cálculo da função de regressão não linear para cada caso, utilizando os valores iniciais. Por exemplo, para o primeiro caso, onde X1=2, obtemos: Para os 15 casos, temos: /* valores iniciais */ g00=56.6646; g10=-0.03797; X2=X[1:15,2]; /* funcao de regressão */ f=g00*exp(g10*X2); 52.520821 46.866338 43.439088 38.76236 33.300409 27.542208 21.11386 17.462918 15.58283 13.387075 10.262533 7.8672587 7.574139 5.8063357 4.8023226 f(0) =

Para o primeiro caso, Y1=54, portanto, o desvio da resposta esperada é: 1.4791792 3.133662 1.5609122 -1.76236 1.6995911 -2.542208 -1.11386 -1.462918 2.4171698 -0.387075 -2.262533 3.1327413 0.425861 -1.806336 1.1976774 Y0=Y-f; /* soma de quadrados do erro no passo zero */ SQE0=Y0`*Y0; Y(0) = A soma de quadrados do erro no passo zero, SQE(0), vale:

Para obter as estimativas dos coeficientes corrigidos, precisamos calcular D(0). Para obter esta matriz, precisamos das derivadas parciais da função de regressão (12) calculadas em  = g(0). Para ilustrar, vamos tomar o caso 1, para o qual X1=2. Assim, o valor das derivadas parciais em g(0) são: 0.9268718 105.04164 0.8270832 234.33169 0.7666001 304.07361 0.6840666 387.6236 0.5876757 466.20573 0.4860567 523.30196 0.3726111 548.96035 0.3081804 541.35047 0.2750011 529.81623 0.2362511 508.70884 0.1811101 461.81398 0.138839 409.09745 0.1336662 401.42937 0.1024685 348.38014 0.08475 312.15097 /*derivadas parciais calculadas em g(0)*/ D0_0=exp(g10*X2); D1_0=g00*X2#exp(g10*X2); D0=D0_0||d1_0; D(0) =

Agora, podemos obter as estimativas de mínimos quadrados b(0), fazendo a regressão de Y(0) sobre as 2 variáveis X na matriz D(0). Continuando com o nosso programa no IML do SAS obtemos: b0=inv(D0`*D0)*D0`*Y0; 1.893244 -0.001563 b(0) = Usando 11.A, obtemos os coeficientes de regressão corrigidos g(1): /* novas estimativas corrigidas */ g0=g00//g10; g1=g0+b0; Aqui, chegamos ao final da primeira iteração com: A soma de quadrados residual na primeira iteração vale:

f1=g1[1,1]*exp(g1[2,1]*X2); Y1=Y-f1; /* soma de quadrados do erro na iteracao 1 */ SQE1=Y1`*Y1; = 49.46383 Observe que houve uma redução nas somas de quadrados dos resíduos. Continuação do exercício: Faça as próximas três iterações, verifique se foi encontrado o critério de convergência ((SQE(s)-SQE(s-1))<0,0001) e escreva o modelo.

proc iml; reset print; Y={54, 50, 45, 37, 35, 25, 20, 16, 18, 13, 8, 11, 8, 4, 6}; X={1 2, 1 5, 1 7, 1 10, 1 14, 1 19, 1 26, 1 31, 1 34, 1 38, 1 45, 1 52, 1 53, 1 60, 1 65}; YT=log(Y); XLX=X`*X; XLXinv=inv(xlx); b=XLXinv*x`*yt; /* valores iniciais */ g00=56.6646; g10=-0.03797; X2=X[1:15,2]; f=g00*exp(g10*X2); Y0=Y-f; /* soma de quadrados do erro no passo zero */ SQE0=Y0`*Y0; /* derivadas parciais calculadas em g(0) */ D0_0=exp(g10*X2); D1_0=g00*X2#exp(g10*X2); D0=D0_0||d1_0; b0=inv(D0`*D0)*D0`*Y0; /* novas estimativas corrigidas - iteracao 1 */ g0=g00//g10; g1=g0+b0; f1=g1[1,1]*exp(g1[2,1]*X2); /* residuos da iteracao 1 */ Y1=Y-f1; /* soma de quadrados do erro na iteracao 1 */ SQE1=Y1`*Y1; /*********************fim da iteracao 1 ****************/

/* derivadas parciais calculadas em g(1) */ D0_1=exp(g1[2,1]*X2); D1_1=g1[1,1]*X2#exp(g1[2,1]*X2); D1=D0_1||d1_1; /* estimativas corrigidas na iteracao 2 */ b1=inv(D1`*D1)*D1`*Y1; /* novas estimativas corrigidas - iteracao 2 */ g2=g1+b1; f2=g2[1,1]*exp(g2[2,1]*X2); /* residuos da iteracao 2 */ Y2=Y-f2; /* soma de quadrados do erro na iteracao 2 */ SQE2=Y2`*Y2; /***********fim da iteracao 2 *******************/

/* derivadas parciais calculadas em g(2) */ D0_2=exp(g2[2,1]*X2); D1_2=g2[1,1]*X2#exp(g2[2,1]*X2); D2=D0_2||d1_2; /* estimativas corrigidas na iteracao 3 */ b2=inv(D2`*D2)*D2`*Y2; g3=g2+b2; f3=g3[1,1]*exp(g3[2,1]*X2); /* residuos da iteracao 3 */ Y3=Y-f3; /* soma de quadrados do erro na iteracao 3 */ SQE3=Y3`*Y3; /************fim da iteracao 3 */ /* derivadas parciais calculadas em g(3) */ D0_3=exp(g3[2,1]*X2); D1_3=g3[1,1]*X2#exp(g3[2,1]*X2); D3=D0_3||d1_3; /* estimativas corrigidas na iteracao 4 */ b3=inv(D3`*D3)*D3`*Y3; g4=g3+b3; f4=g4[1,1]*exp(g4[2,1]*X2); /* residuos da iteracao 4 */ Y4=Y-f4; /* soma de quadrados do erro na iteracao 4 */ SQE4=Y4`*Y4; /************fim da iteracao 4 */

Comentários: 1) A escolha das estimativas iniciais no método de Gauss-Newton é muito importante, pois uma má escolha pode resultar num número muito grande de iterações até convergir; pode convergir num mínimo local, ou, mesmo, não convergir. Bons valores iniciais pode levar a um mínimo global, quando existir vários mínimos locais. SQE b(0) b(1)

2) Para o método de Gauss-Newton ou similares, é uma boa prática utilizar um outro conjunto de valores iniciais e verificar se chega-se ao mesmo resultado. 3) Algumas propriedades válidas para os modelos lineares, não são para os modelos não lineares. Por exemplo, a soma dos resíduos não necessariamente é igual a zero; a soma dos quadrados do erro mais a soma dos quadrados da regressão, não necessariamente é igual a soma dos quadrados total. Consequentemente, o coeficiente de determinação pode não ser uma estatística descritiva importante para os modelos não lineares. Inferência sobre os parâmetros na regressão não linear Na análise de regressão não linear com erros normais, os estimadores de mínimos quadrados ou de máxima verossimilhança, para qualquer tamanho de amostra, não tem distribuição normal, não são imparciais e não tem variância mínima. As inferências sobre os parâmetros da regressão, no caso não linear, geralmente são baseadas na teoria das grandes amostras.

Esta teoria mostra que os estimadores (de mínimos quadrados ou máxima verossimilhança) para os modelos de regressão não linear com erros normais, quando o tamanho da amostra é grande, apresentam distribuição aproximadamente normal, são aproximadamente não tendenciosos, e aproximadamente variância mínima. Estimativa de 2 gé o vetor das estimativas finais dos parâmetros; para os modelos de regressão não linear, o QME não é um estimador não tendencioso de 2, porém, o viés é pequeno se o tamanho da amostra for grande. Teoria das grandes amostras Teorema: para iindependentes N(0,2) e o tamanho da amostra n razoavelmente grande, a distribuição amostral de g é aproximadamente normal. O valor esperado do vetor de médias é aproximadamente:

Uma aproximação da estimativa da matriz de variância-covariância dos coeficientes de regressão é dada por: D é a matriz de derivadas parciais calculada nas estimativas finais, g. Quando a teoria de grandes amostras é aplicável? Orientações: » o processo iterativo converge rapidamente; » calcular algumas medidas: medidas de curvatura de Bates e Watts, medida de vício de Box; » estudos de simulação, por exemplo, amostragem Bootstrap verifica se as distribuições amostrais das estimativas dos parâmetros de regressão não linear são aproximadamente normal, se as variâncias das distribuições amostrais são próximas das variâncias para o modelo linearizado, e se o viés em cada estimativa dos parâmetros é pequeno.

Algumas medidas usadas quando os resultados da teoria das grandes amostras não se aplica: • Usar outra parametrização do modelo • Fazer intervalos de confiança Bootstrap • Aumentar o tamanho da amostra

Intervalo de confiança para os parâmetros De acordo com o teorema 13, temos: Onde t(n-p) é a variável com distribuição t com (n-p) graus de liberdade. De (14) obtemos: Onde t(1-/2;n-p) é o (1-/2)100 percentil da distribuição t com (n-p) graus de liberdade. Exemplo: vamos considerar os dados de pacientes com doença grave. Desejamos estimar 1 com um intervalo de 95% de confiança. Temos:

Concluímos, com aproximadamente 95% de confiança, que 1está entre -0,0433 e -0,0359. Teste de hipóteses Onde k0 é um valor específico de k. O teste estatístico é: Regra de decisão: Exemplo: vamos considerar os dados de pacientes com doença grave. Desejamos testar as hipóteses:

O valor p é: Portanto, rejeitamos a hipótese nula.

Regressão não linear