320 likes | 588 Views
VALIDAÇÃO CRUZADA EM ANÁLISE BASEADA EM MODELO DE EFEITOS PRINCIPAIS ADITIVOS E INTERAÇÃO MULTIPLICATIVA (AMMI). Carlos Tadeu dos Santos Dias. Escola Superior de Agricultura “Luiz de Queiroz” / ESALQ / USP . Departamento de Ciências Exatas. Introdução. Interação Genótipo/Ambiente (GxE).
E N D
VALIDAÇÃO CRUZADA EM ANÁLISE BASEADA EM MODELO DE EFEITOS PRINCIPAIS ADITIVOS E INTERAÇÃO MULTIPLICATIVA (AMMI) Carlos Tadeu dos Santos Dias Escola Superior de Agricultura “Luiz de Queiroz” / ESALQ / USP Departamento de Ciências Exatas
Introdução Interação Genótipo/Ambiente (GxE) Adaptação específica de genótipos em ambientes Métodos estatísticos tradicionais • -Análise conjunta de ensaios multiambientes • -Regressão linear simples e múltipla (Eberhart & Russel, 1966) – Não é informativa se a linearidade falha Métodosmultivariados • -PCA (Análise de Componentes Principais) • -Análise de Agrupamento • -AMMI
Procedimento AMMI AMMI ANOVA e PCA Modela efeitos principais e interação de uma forma sequencial • Efeitos principais • são estimados usando mínimos quadrados • É conduzida via decomposição em valores singulares (DVS) aplicado á matriz residual de interação. • PCA Incorpora componentesaditivosemultiplicativosem uma análise de mínimos quadrados integrada e poderosa
Procedimento AMMI Problema Geral Número de componentes multiplicativos a ser retido no modelo (com o objetivo de adequadamente explicar o padrão na interação) Propostas: Mandel (1961, 1969, 1971), Gollob (1968), Gauch & Zobel (1988), Cornelius (1993), Piepho (1994 and 1995). Fisher e Mackenzie (1923).Todas consideram a proporção de variância acumulada pelos componentes. Validação-Cruzada – como uma metodologiapreditiva. Problema Específico Otimizar o processo de validação cruzada
Objetivo Sumário do modelo AMMI Sumário da metodologia disponível para selecionar o número de componentes multiplicativos no modelo Descrever dois métodos baseados no procedimento leave-one-outque otimiza o processo de validação cruzada
O modelo AMMI Supor n genótipos em p ambientes com r repetições. A média de cada combinação modelada por
O modelo AMMI Estimativas: De uma ANOVA da matriz nYp Os resíduos dessa matriz constituem a matriz de interação: termos da interação multiplicativa DVS da matriz nGEp
O modelo AMMI os resíduos dessa matriz constituem a matriz do vetor …singular através do j-ésimo elemento do vetor singular associado com k=1,2,…,s = min{n-1, p-1}, s é o posto de GE. Se k varia até s o modelo produz um ajuste exato aos dados. Consequentemente k varia até m (m<s), e as estimativas são obtidas dos primeiros m termos da DVS da matriz GE. através do k-ésimo valor singular de GE é um resíduo adicional.
O modelo AMMI :é o i-ésimo elemento do autovetor de (GE)(GE)’ associado com :é o j-ésimo elemento do autovetor de (GE)’(GE) associado com (DVS) Partição ortogonal Correspondência entre DVS e PCA :raiz quadrada do k-ésimo maior autovalor da matriz (GE) (GE)’ ou (GE)’(GE)
O modelo AMMI e e por quê? Assim a interação do genótipo i com o ambiente j é descrito por descartando o ruído dado por fornece a proporção da variância devido a interação GxE no k- ésimo componente. representampesospara o genótipoie ambientej naquele componente da interação, respectivamente. devido GE ser por construção uma matriz de desvios centrada na média e com média nula.
Avaliação Preditiva Usando Validação Cruzada Em geral, ao melhorista de plantas interessa predizer o comportamento de um genótipo. Critérios de avaliação: POS-DICTIVO x Modelo PREDITIVO (Ajustado-via teste F) (Predições) Para fazer Predições: Métodos que são essencialmente data-based e livres de distribuições teóricas terão maior generalidades
Avaliação Preditiva Usando Validação Cruzada Tais métodos envolvem reamostragem de um determinado conjunto de dados, usando técnicas tais como jacknife, bootstrap e validação cruzada (Avaliação preditiva) y111 y112 … y11r y121 … y12r etc. (i) Dados para o ajustedo AMMI Aleatoriamente dividida em dois subgrupos (ii) Dados para validação
Avaliação Preditiva Usando Validação Cruzada Root Mean Square Predictive Difference As respostas são preditas para uma família de modelos AMMI (’s m) e esses são comparados com os respectivos dados de validação, calculando as diferenças entre esses valores. Assumimos que dados = padrão + ruído dados1 = padrão + ruído1 dados2 = padrão + ruído2
Métodos “Leave-one-out” no qual predizemos o valor de xij (i=1,…,n;j=1,…,p) para cada possível escolha de m, e medir a discrepância entre o valor atual e predito. Para o que segue, queremos predizer o elemento xij da matriz X por meio do modelo
Métodos “Leave-one-out” Entretanto, para evitar viés, o valor xij não deve ser usados nos cálculos de . Assim, apelo a alguma forma de validação cruzada é indicada. Krzanowski (1982) - O algoritmo para validação cruzada Agora considere o preditor Note: é feito o máximo uso dos outros elementos de X.
Métodos “Leave-one-out” Gabriel (2002) - Toma uma mistura de regressão e aproximação de uma matriz de posto-inferior como base para predição. - O algoritmo para validação cruzada • Para uma matriz X (n x p), use a partição e aproxime a submatriz obtenha o resíduo da validação cruzada, Então prediga x11 por
Métodos “Leave-one-out” (2)Similarmente, obtêm-se os valores ajustados e os resíduos para todos outros elementos, xij, i=1,…n;j=1,…,m;(i,j)(1,1). Cada um irá requerer uma diferente partição de X. (3) Esses resíduos e valores ajustados podem ser resumidos por PRESS(m)/np e
Métodos “Leave-one-out” Com cada método, a escolha de m pode ser baseada em uma apropriada função de PRESS(m)/np.
Métodos “Leave-one-out” Krzanowski sugere o uso da estatística Dm: número de GL required para ajustar o m-ésimo componente. Dm=n+p-2m Dr: número de GL restante após ajustar o m-ésimo componente. D1=(n-1)p, Dr=Dr-1-(n+p-(m-1)2), r=2,3,…,(n-1). Wm: representa o incremento na informação preditiva fornecida pelo m-ésimo componente, dividido pela informação preditiva média em cada um dos componentes restantes.
Exemplo ilustrativo Tabela 1- Dados de vinte amostras solo e cinco variáveis (Kendall, 1980, p.20, baseado em Krzanowski, 1988).
Exemplo ilustrativo Tabela 2 - Dados de quarenta afídeos e dezenove variáveis (Jeffers, 1967, baseado em Krzanowski, 1987).
Exemplo ilustrativo Tabela 3 - Análise de efeitos principais aditivos e interação multiplicativa dos dados de Hernández e Crossa (2000), para a análise dos cinco primeiros componentes principal de interação (IPCA).
Exemplo ilustrativo Tabela 4- Dados (produção média de grãos) de um ensaio de variedades de trigo oito genótipos testados durante seis anos (1990-1995).
Exemplo ilustrativo Tabela 5- Análise de validação cruzada e métodos “leave- one-out” para os dados Hernandéz e Crossa (2000).
Discussão Teste F distribucional indicou:dois componentes Validação cruzada por aleatorização: três componentes Leave-one-out:um componente Como avaliar estas diferenças?
Discussão Métodos baseados no teste F dependem pesadamente das suposições distribucional (normalidade dos dados e validade das distribuições F para os quadrados médio) o que pode não ser apropriado em muitos casos. O teste F pode apresentar recomendações conflitantes para um particular conjunto de dados. O teste F seleciona muitos componentes de interação.
Discussão • Parece que um método de validação cruzada baseado em dados deve ser mais apropriado. Validação cruzada por aleatorização tem uma grande parte dos dados que fica fora do conjunto de validação. Métodos “Leave-one-out” faz o mais eficiente uso dos dados e resulta em modelos mais parsimoniosos (AMMI 1)
Referências bibliográficas CORNELIUS, P.L. 1993. Statistical tests and retention of terms in the additive main effects and multiplicative interaction model for cultivar trials. Crop Sci. 33:1186–1193 EBERHART, S.A.; RUSSELL, W.A. Stability parameters for comparing varieties. Crop Science,v.6, n.1, p.36-40, 1966 FISHER, R.A. and MACKENZIE,W.A. (1923). The manurial response of different potato varieties. Journal of Agricultural Science, xiii. 311-320 GAUCH J´UNIOR, H.G.; ZOBEL, R.W. Predictive ans postdictive sucess of statistical analysis of yield trials. Theoretical and Applied Genetics, New York, v.76, p.1-10, 1988 MANDEL, J. Non-additivity in two-way analysis of variance. Journal of the American Statistical Association, v.56, p.878-888, 1961 MANDEL, J. The partitioning of interactions in analysis of variance. Journal of Research of the National Bureau of Standards , Series B, Washington, v.73, p.309-328, 1969 MANDEL, J. A new analysis of variance model for non-adittive data. Technometrics, Alexandria, v.13, n.1, p.1-18, 1971
PIEPHO, H.P. 1994. Best linear unbiased prediction (BLUP) for regional yield trials: a comparison to additive main effects and multiplicative interaction (AMMI) analysis. Theor. Appl. Genet. 89:647–654 PIEPHO, H.P. 1995. Robustness of statistical test for multiplicativeterms in additive main effects and multiplicativeinteraction model for cultivar trial. Theor. Appl. Genet. 90:438–443