290 likes | 406 Views
Técnicas Experimentais Aplicadas em Ciência do Solo. Mario de Andrade Lira Junior lira.pro.brwordpress. Regressão x correlação. Diferença Regressão - equação ligando duas ou mais variáveis Correlação – medida do grau de ligação entre duas variáveis Usos
E N D
Técnicas Experimentais Aplicadas em Ciência do Solo Mario de Andrade Lira Junior lira.pro.br\wordpress lira.pro.br\wordpress - Reservados todos os direitos autorais.
Regressão x correlação • Diferença • Regressão - equação ligando duas ou mais variáveis • Correlação – medida do grau de ligação entre duas variáveis • Usos • Regressão – estimar valores intermediários aos realmente estudados durante o experimento • Correlação – indicar variáveis com comportamento semelhante lira.pro.br\wordpress - Reservados todos os direitos autorais.
Análise de regressão • É importante diferenciar entre testes de “significância” e “importância” • Em modelos de regressão avaliar a importância científica costuma ser mais importante do que a significância • Em modelos lineares a importância é principalmente definida por: • Proporção da variância atribuída ao modelo • O tamanho de um ou mais coeficientes de correlação • Intervalos de confiança de interesse lira.pro.br\wordpress - Reservados todos os direitos autorais.
Tipos de Regressão • Linear • Polinomial • Múltiplo • Modelos não-lineares • Exponencial • Logarítimico lira.pro.br\wordpress - Reservados todos os direitos autorais.
Limitações dos tipos mais comuns • A linear raramente representa bem toda uma série de dados • No entanto, costuma representar bem faixas de valores • Regressões polinomiais não têm interpretação biológica válida para os parâmetros • Mas são úteis como simplificação de situação real • Polinomiais cúbicas ou mais complexas raramente são boas descritoras de fatos biológicos lira.pro.br\wordpress - Reservados todos os direitos autorais.
Interpretação regressão linear • Y – variável dependente • a – y para x =0 • b – quanto y varia para cada x • r – coeficiente de correlação • Varia de -1 a 1 • Quanto da variação de y é explicada por x • r2 – coeficiente de determinação • Quanto de y é explicado pela regressão • Varia de 0 a 1 lira.pro.br\wordpress - Reservados todos os direitos autorais.
Interpretação Triângulos Quadrados Losangos lira.pro.br\wordpress - Reservados todos os direitos autorais.
Requisitos da regressão linear • Variável independente medida sem erro • O valor esperado de Y é descrito pela função linear de X • Para cada Xi os Y´s têm resíduos • Independentes • Normalmente distribuídos com média zero • Homocedástico – variância aproximadamente constante lira.pro.br\wordpress - Reservados todos os direitos autorais.
Fontes de variação • Médias - variável independente • Acaso Valores ajustados e resíduos • Valor ajustado - obtido pela equação estimativa da população • Resíduo- diferença entre ajustado e real • Comparação entre resíduo e variável independente é útil para visualizar ajuste do modelo lira.pro.br\wordpress - Reservados todos os direitos autorais.
Coeficiente de correlação • Mede o grau de relação linear entre variáveis • Interpretação • Testes de significância • Análise de variância da regressão completa • No computador, cada componente é testado pelo teste de t lira.pro.br\wordpress - Reservados todos os direitos autorais.
Interpretação de análise do output do SAS em uma regressão linear Model: MODEL1 - DependentVariable: _800125888 Analysis ofVariance SumofMean Source DF Squares Square F Value Pr > F Model 1 58120 58120 53,45 <,0001 Error 18 19572 1087,32861 Corrected Total 19 77692 Root MSE 32,97467 R-Square 0,7481 Dependent Mean 159,31150 Adj R-Sq 0,7341 Síntese Coeff Var 20,69823 ParameterEstimates Parameter Standard Standardized Variable DF EstimateError t ValuePr>|t| Estimate Intercept 1 83,07500 12,77103 6,50 <,0001 0 N 1 0,76237 0,10428 7,31 <,0001 0,86492 ParameterEstimates Variable DF 95% ConfidenceLimits Intercept 1 56,24405 109,90595 N 1 0,54329 0,98144 ANAVA/ANOVA Estimativa e significância Intervalos de confiança lira.pro.br\wordpress - Reservados todos os direitos autorais.
Regressão Linear Múltipla (RLM) • Em muitos sentidos simplesmente uma extensão da linear simples, com mais variáveis independentes • Neste modelo o a (intercepto) é o valor de y quando todas as variáveis independentes têm valor 0 • O teste de hipóteses mais comum para avaliar o mérito da RLM é considerar todos os β iguais a zero, ou seja, nenhuma das variáveis prevê y • R2 corrigido estima a fração da variância de y predita pelas variáveis independentes, após correção para o intercepto, enquanto o não corrigido inclui o intercepto, ficando mais parecido com o R2 da regressão linear simples lira.pro.br\wordpress - Reservados todos os direitos autorais.
Testes de hipóteses para RLM • Como alguns testes parecem avaliar o mesmo ponto e apresentam resultados diferentes é muito importante checar as diferenças nas premissas e modelos por trás dos testes • Quatro tipos básicos de testes • Testes gerais – medir a contribuição de todos os preditores • Adição de uma variável – medir a contribuição de um único preditor • Interceptos – indicar o valor de uma coluna de constantes em prever a resposta • Adição de grupos de variáveis - medir a contribuição de dois ou mais preditores dentro de todos os possíveis • Hipótese linear generalizada – outros testes lira.pro.br\wordpress - Reservados todos os direitos autorais.
Testes de hipóteses (cont.) • Para cada teste se comparam os modelos geral (hipótese alternativa) e reduzido (hipótese nula) • Teste geral corrigido • H0 y = a; Ha = algum componente da regressão é significativo • Teste para adição de uma variável • para última variável adicionada • comparar dois modelos em que a única diferença é a adição de uma variável • H0 é que o efeito desta última variável é não diferente de 0, ou seja não significativo • Para variável adicionada na ordem • Semelhante ao tipo anterior, mas em que os modelos são testados sequencialmente lira.pro.br\wordpress - Reservados todos os direitos autorais.
Testes de hipóteses (cont.) • Teste do intercepto • Adicionado por fim • Define todo o modelo e verifica se a adição do intercepto apresenta efeito significativo • Adicionado na ordem • Semelhante ao anterior • Adição de grupo de variáveis • Grupo adicionado por fim • Generalização do teste da hipótese adicionado por fim • Grupo adicionado em ordem • Semelhante aos demais lira.pro.br\wordpress - Reservados todos os direitos autorais.
Seleção de modelos • Técnicas de seleção de modelos podem implicar em grande aumento na chance de erro tipo I. • Recomendam-se os seguintes passos: • Especificar o modelo máximo (com todas as variáveis) • Especificar o critério de escolha • Especificar a estratégia de escolha • Conduzir a análise • Avaliar confiabilidade do modelo escolhido lira.pro.br\wordpress - Reservados todos os direitos autorais.
Especificar o critério • Modelo único • redução da Soma de Quadrados do Resíduo • Uma desvantagem é a dependência do tamanho da amostra • Aumento do tamanho aumenta SQR • Uso do quadrado médio reduz este problema • Depende da escala de y • O valor de F ou de Pr<F diminuem estes problemas • Modelos aninhados (diferem apenas pela adição ou subtração de variáveis) • Comparar o valor de F dos modelos lira.pro.br\wordpress - Reservados todos os direitos autorais.
Especificar a estratégia • Testar todas as regressões possíveis • Grande número de combinações • 2númerode variáveis possíveis • Como exemplo, para 10 variáveis, 1023 possíveis modelos • É o único algoritmo que garante uma solução para qualquer conjunto de variáveis • Eliminação para trás • Começa com todas as p variáveis • Testa todos os modelos com p-1 variáveis • Para cada modelo, testa o efeito da retirada da última variável • Seleciona a variável com menor efeito de retirada • Reinicia com o segundo passo • Seleção para frente • Igual à para trás, ao contrário lira.pro.br\wordpress - Reservados todos os direitos autorais.
Especificar a estratégia (2) • Stepwise • Mistura de técnicas • Começa com um passo de seleção para frente • Para cada passo para frente, pode-se retirar uma das variáveis já presentes • As probabilidades de F raramente são adequadas • Como os programas permitem selecionar valores de probabilidade para uma variável entrar ou sair. recomendação de probabilidades • Para entrar 1 (ou 0,99999 se não puder 1) • Para sair 0 (ou 0,0000001 se 0 não for possível) • Aproxima de todos os modelos • Melhor mais variáveis do que menos, em termos de confiabilidade lira.pro.br\wordpress - Reservados todos os direitos autorais.
Continuando o processo... • Conduzir a análise • Lembrar de checar colinearidade e premissas da Análise de Variância • Avaliar confiabilidade • Desenhar bem a coleta de dados • Estudo confirmatório – desvantagem principal custo • Análise em amosta dividida • Parte dos dados usada para construir o modelo, a outra para confirmar • Os dados devem ser separados aleatoriamente antes da análise lira.pro.br\wordpress - Reservados todos os direitos autorais.
Modelos não lineares • Usualmente processos interativos • Bons descritores de fenômenos biológicos • Uso bem mais complexo • Freqüentemente derivadas de modelagem mecanicista • Grande parte dos parâmetros têm significado biológico lira.pro.br\wordpress - Reservados todos os direitos autorais.
Gompertz • Curva de crescimento com fases inicial e final lentas • a é a assíntota do crescimento • c é a taxa de crescimento • b e c são contantes negativas • e é a constante neperiana lira.pro.br\wordpress - Reservados todos os direitos autorais.
Exemplo de Gompertz • http://en.wikipedia.org/wiki/Gompertz_curve lira.pro.br\wordpress - Reservados todos os direitos autorais.
Regressão logística • Também modelo de crescimento • Crescimento inicial aproximadamente exponencial seguido por redução do crescimento pela competição até estabilização • Também pode ajudar no estudo de reações autocatalíticas • Alguns modelos específicos são • Verhultz – crescimento populacional • Sigmoidal lira.pro.br\wordpress - Reservados todos os direitos autorais.
Queda exponencial • Modelo básico para decomposição de matéria orgânica e liberação de nutrientes • Casos típicos queda exponencial simples ou dupla • a – pool de elementos • b – taxa de decomposição • e – constante neperiana • c – pool de elementos de decomposição lenta • d – taxa de decomposição deste segundo pool lira.pro.br\wordpress - Reservados todos os direitos autorais.
lira.pro.br\wordpress - Reservados todos os direitos autorais.
Hiperbólica • Adequada para casos em que tende a uma constante • As constantes também apresentam interpretação biológica pré-definida • Dividem-se em dois tipos básicos • Crescimento • Queda lira.pro.br\wordpress - Reservados todos os direitos autorais.
Curvas hiperbólicas lira.pro.br\wordpress - Reservados todos os direitos autorais.
Literatura recomendada • Muller e Fetterman Regression and ANOVA. An integrated approach using SAS software • Capítulo 2 • Capítulo 4 • Capítulo 5 • Capítulo 11 • Mills, J.L. How to torture your data- Artigo no site lira.pro.br\wordpress - Reservados todos os direitos autorais.