220 likes | 340 Views
Outros tópicos na análise de regressão. Regressão passando pela origem.
E N D
Outros tópicos na análise de regressão Regressão passando pela origem Exemplo: X são as unidades produzidas e Y é o custo, assim Y é zero por definição quando X=0. Outro exemplo: X é o número de marcas de cervejas armazenada em um supermercado num experimento (incluindo alguns supermercados sem cerveja armazenada (?? Não é no Brasil) e Y é o volume de cervejas vendidas no supermercado. Modelo O modelo com erros normais é o mesmo que (3) exceto que 0=0, assim, temos: Onde: 1 é o parâmetro a estimar; Xisão constantes conhecidas e i são os erros aleatórios, independentes, normalmente distribuídos com média zero e variância 2. A função de regressão para o modelo (5) é dada por:
Inferência O estimador de mínimos quadrados de 1 (que também é o estimador de máxima verossimilhança para o modelo de regressão com erros normais), no modelo (5), é obtido minimizando-se o critério: com relação ao parâmetro 1. A equação normal resultante é dada por: É um valor específico Resolvendo para b1obtemos o estimador por ponto: Os valores ajustados e os resíduos são dados por:
Um estimador não tendencioso para 2 é dado por: Perde-se 1 grau de liberdade para estimar o parâmetro 1 Os limites de confiança para 1, E(Yh) e para uma nova observação Yh(novo)para o modelo (5) são dados por: O valor de t tem n-1 graus de liberdade associado (os do resíduo). No modelo (3), com intercepto, tínhamos termos da forma: No modelo (5), como a equação passa pela origem, temos termos X2i e X2h.
Exemplo: uma companhia opera 12 depósitos (armazéns). Com o objetivo de encontrar um procedimento mais eficiente de planejamento e controle, foi estudado a relação entre o número de horas trabalhadas (X) e o custo total do serviço (Y) nos depósitos durante um período de teste. Os dados e alguns resultados são apresentados na tabela a seguir:
O parâmetro 1 é estimado por: Assim, a função de regressão estimada é dada por:
O intervalo para 1, com confiança de 95% é dado por: Interpretação: com 95% de confiança, estima-se que a média da variável custo aumenta alguma coisa entre $4,61 e $4,76 para cada unidade adicional de trabalho. Cuidados com o uso da regressão pela origem • geralmente, a soma dos resíduos não é igual a zero (Verifique este fato no exemplo em estudo; também na equação normal(restrição)). Assim, num gráfico de resíduos, os mesmos não estarão aleatoriamente distribuídos ao redor de zero; • pode ocorrer que: (ocorrência: dados apresentam comportamento curvilíneo ou linear com intercepto). Neste caso, o coeficiente de determinação (r2), dado por: Portanto, o r2, neste caso de regressão, não tem uma clara interpretação.
Exercício: construa a tabela da análise de variância da regressão, faça o teste F e conclua, utilizando as seguintes somas de quadrados. Onde SQTNC é a soma de quadrados total não corrigido; SQRNC é a soma de quadrados da regressão não corrigido e SQE é a soma de quadrados do erro. Verifique numericamente que SQTNC=SQRNC+SQE.
Exemplo (referência: SAS System for Regression). Neste exemplo iremos ilustrar o fato de que o uso de um modelo sem intercepto pode fornecer resultados imprecisos mesmo nos casos em que o verdadeiro valor do coeficiente linear é próximo de zero. Uma amostra de tamanho 8 foi gerada usando o modelo y=x+, com o termo do erro com distribuição normal, média zero e variância l.
Observa-se imediatamente que tanto o valor o teste F para o modelo, como o valor R2 são muito maiores para o modelo sem o coeficiente linear. Observe (isto é importante) que os quadrados médios são praticamente iguais, a rigor, o quadrado médio do modelo sem o coeficiente linear é maior do que o modelo com o coeficiente angular. Na realidade, os dois modelos estimam equações de regressão muito similares; a estimativa do coeficiente linear (-0,963) é bastante próxima de zero, além disso, a hipótese de que 0=0 não pode ser rejeitada (valor p=0,3436); as estimativas dos coeficientes angulares: 1=1,09 e 1=0,916, para os modelos com e sem coeficiente linear, respectivamente, são muito próximos.
Observe, também, que a soma dos resíduos vale -1,5865, diferente de zero, mesmo o coeficiente linear sendo próximo de zero. Como o verdadeiro coeficiente linear é zero, as somas de quadrados do erro são próximas, quais sejam: 8,68 para o modelo com intercepto e 10,21 para o modelo sem o intercepto, porém, as somas de quadrado total são muito diferentes, sendo igual a 181,27 para o modelo sem o coeficiente linear e 58,19 para o modelo com coeficiente linear. Como o r2é uma estatística baseada na diferença entre a soma de quadrados do erro e total, ela é muito maior para o modelo sem o coeficiente linear.
Efeitos de erros de medidas Erros de medida em Y Exemplo: Y: tempo necessário para completar uma tarefa X: complexidade da tarefa As tomadas de tempo podem ser feitas de forma imprecisa. Porém, se esses erros podem ser considerados aleatórios, não correlacionados e não tendenciosos, não temos problemas com a modelagem adotada até aqui. A parte aleatória do modelo () absorve estas variações. Erros de medida em X Suponha que estejamos interessados na seguinte relação: ganhos por tarefa dos trabalhadores e idades dos mesmos. Sejam: Xi = a idade verdadeira do i-ésimo trabalhador Xi* = a idade relatada pelo i-ésimo trabalhador
Define-se o erro de medida como sendo: O modelo de regressão que gostaríamos estudar é: Como observamos Xi*, o modelo fica: Termo do erro Variável preditora Para que os resultados padrões da análise de regressão sejam válidas, a variável preditora deve ser independente do erro. Aqui, a variável preditora é correlacionada com o erro, dada a restrição: Portanto, os resultados padrões de regressão não são válidos para o modelo (6).
Demonstração: covariância entre Xi*e os erros (i- 1i) no modelo (6) Inicialmente, temos: (Erros de medidas, i não sejam correlacionados com os erros do modelo, i.) A covariância fica: Usando (a) e (b), a covariância fica: Grandes dificuldades são encontradas na obtenção de estimadores não tendenciosos quando existe erros de medida em X. Para soluções consultar textos especializados .
Predição inversa (Calibração) Em muitos estudos, uma regressão de Y sobre X é usada para estimar o valor de X o qual originou um novo valor de Y. Exemplos: 1) um analista de uma associação de comércio fez uma regressão entre preços de venda de um produto (Y), e os seus custos (X) para 15 membros da associação. O preço de venda de uma firma não pertencente à associação, Yh(novo), é conhecido e, deseja-se, conhecer o custo, Xh(novo), para esta firma. 2) foi realizada uma análise de regressão da diminuição do nível de colesterol (Y) e a dosagem de uma nova droga (X), para 50 pacientes. Um pesquisador está tratando um novo paciente para o qual o nível de colesterol deveria diminuir uma quantidade Yh(novo). Deseja-se estimar a dose necessária, Xh(novo),a ser administrada para se conseguir a quantidade Yh(novo). Vamos assumir o modelo (3):
A função de regressão estimada é dada por: Temos uma nova observação, Yh(novo) e desejamos estimar o nível Xh(novo) que origina esta nova observação. Resolvendo (7) para X, dado Yh(novo, temos o estimador: Estimador pontual para o novo valor Xh(novo). (Estimador de máxima verossimilhança) Veja figura na próxima página. Exemplo: um médico está estudando um novo método (mais rápido) para medir baixas concentrações de açúcar no sangue. Doze (n=12) amostras foram usadas com concentrações conhecidas (X: método exato), divididas em 3 amostras para cada um de 4 diferentes níveis. A concentração de açúcar medida pelo método rápido (Y) foi então observada para cada uma das amostras. A equação de regressão estimada é dada por:
Y • • • • • • Yh(novo) • • • • • • X Figura: exemplo de calibração. Outros resultados: Verificar se existe uma relação linear entre X e Y. Portanto, rejeitamos H0:1=0.
O pesquisador deseja estimar a concentração real Xh(novo) para um novo paciente para o qual o método rápido (novo) resultou numa concentração de Yh(novo)=6,52. Intervalo de confiança aproximado para Xh(novo) O intervalo de confiança é dado por: Para o exemplo, temos: Concluímos com 95% de confiança que a verdadeira concentração de açúcar para o paciente está entre 6,13 e 6,89. Portanto, o erro é de aproximadamente 6%, o qual é considerado razoável para o pesquisador.
Comentário: em problemas de calibração geralmente temos medidas (Y), rápidas, mais baratas e aproximadas, relacionadas com medidas (X), precisas, caras e demoradas sobre n observações. O modelo de regressão resultante é, então, utilizado para estimar uma medida precisa, Xh(novo), para uma medida aproximada nova Yh(novo). Escolha dos níveis de X Questões que o pesquisador deve considerar: • Quantos níveis de X deveriam ser pesquisados? • Quais devem ser os dois níveis extremos? • Qual deve ser o espaçamento entre os níveis? • Quantas observações devem ser feitas para cada nível de X?
Objetivos de uma análise de regressão: Não existe uma resposta única para todas as questões formuladas, pois existem diferentes objetivos numa análise de regressão os quais levam a diferentes respostas. • estimar o coeficiente angular de uma regressão linear ; • estimar o coeficiente linear da regressão linear; • fazer predições de novas observações; • estimar uma ou mais respostas médias; • para regressão curvilínea, localizar a resposta máxima ou mínima; • determinar a natureza da função de regressão. Para ilustrar como os objetivos afetam o delineamento (projeto), considere as variâncias:
Se o propósito da análise de regressão é estimar o coeficiente angular, 1, a variância de b1é minimizada se o denominador de (8) for maximizado. Isto é conseguido usando 2 níveis de X, nos dois extremos da região de estudo, e colocando metade das observações em cada dos dois níveis. Devemos estar certos da linearidade da regressão, caso contrário, com 2 níveis não temos informação sobre desvios da linearidade. Se o objetivo é estimar o intercepto, 0, o número e a distribuição dos níveis não afetam a variância de b0, contando que a média (X barra) seja 0 (zero).
Para estimar a resposta média ou predizer uma nova observação no nível Xh, a variância é minimizada usando níveis de X de tal forma que: Sugestões (D.R.Cox): • Num experimento exploratório, em que o objetivo é verificar se uma variável preditora, tem ou não um efeito significativo e qual a direção, use apenas dois níveis. • Se acharmos que a resposta apresenta a forma de parábola, devemos usar três (3) níveis. Este é o caso mais corriqueiro. • Se o objetivo é estudar a forma da curva de resposta, então, devemos usar quatro (4) níveis. • Usar mais do que quatro (4) níveis para: a) quando é necessário estimar detalhes da curva de resposta; b) quando a curva de resposta apresenta uma assíntota; c) quando a curva de resposta não é adequadamente descrita pelo coeficiente angular e de curvatura. • Com exceção do último caso, geralmente é satisfatório usar-se níveis igualmente espaçados e com o mesmo número de repetições por nível. Nota: fazer lista de exercícios número 4.