190 likes | 339 Views
Objectius de l’estadística - extreure informació (causalitat) dels mecanismes subjacents - predir i pronosticar Dos maneres d’entendre i usar l’estadística: assumir que es pot modelitzar el mecanisme ( data stochastic models )
E N D
Objectius de l’estadística • - extreure informació (causalitat) dels mecanismes subjacents • - predir i pronosticar • Dos maneres d’entendre i usar l’estadística: • assumir que es pot modelitzar el mecanisme (data stochastic models) • assumir que es desconeix el mecanisme (algorithmic models / machine learning)
anàlisi de regressió • anàlisi de la variància (MANOVA) i covariància (MANCOVA) • anàlisi dels components principals o factors principals • anàlisi de clusters i anàlisi discriminant • anàlisi de sèries temporals
Correlació (r=coeficient de correlació)versus regressió - existència d’associació (r=/=0) - direcció de l’associació (r>0 o r<0) - grau de l’associació r=[-1,1] - natura i forma de l’associació (regressió) determinar quina és la funció matemàtica que millor expressa la relació entre variables
relació funcional entre 2 o més variables [y=f(x)] diferents possibilitats simple lineal anàlisi de regressió múltliple no lineal a = intercepció y = a + bx b = coeficient de regressió x=variable independent (variació controlada per l’investigador) y=variable dependent (mesurada per l’investigador. Variació provocada per la variable independent)
y=142+0.52x + 1000 800 600 Y (precipitació en mm) 400 200 0 0 200 400 600 800 1000 1200 1400 X (altitud en m)
^ ^ yi y y x, y x - “eyeball fitting” - ajust de mínims quadrats Condicions -minimitzar SSI -passar per yi y SSI SST SSE SSInexplicat= SSExplicat= SSTotal= xi
( =a+bx): ^ ^ calcular a i b per poder obtenir y y - derivades parcials i igualant a zero - mitjançant àlgebra Trobem a: Trobem b: minimitzar
- com s’ajusta aquesta funció? quina part de la variabilitat de y en funció de x expliquem? - quina fiabilitat presenta l’ajust? r2: coeficient de determinació b: coeficient de regressió (H0: bn=0) SS gll MS (SS/gll) Font de variació Explicada Inexplicada Total
Selecció de variables:simultània/jeràrquica/stepwise Regression Summary for Dependent Variable: M_MG (pl.sta) R= 0.783 R²= 0.614 Adjusted R²= 0.608 F(4,263)=104.65 p<0.001 Std.Error of estimate: 13.971 Coeficient de regressió múltiple: contribució de cada variable independent a la predicció de la variable dependent quan la resta de variables independents es mantenen constants Beta: coeficents de regressió estandarditzats B: coeficients de regressió no estandarditzats beta=B(dsx/dsy)
assumpcions • - linearitat • normalitat dels residus (teorema de límit central) • homogeneïtat de variàncies dels residus (homoscedasticitat) • - existència de variància explicada ( i ) • absència de multicolinearitat limitacions - no podem inferir causa-efecte - nombre de variables (consell n=15*n°variables)
Selecció de variables - Stepwise (backward, forward): F test - All subsets: Adjusted R2 Akaike Information Criteria Cp Mallows
examinar correlacions - matriu de correlacions - coeficient de correlació parcial: percentatge de variància de Y explicat per només una variable independent - coeficient de correlació semiparcial: saber com incrementa R2 quan entra una variable al model • examinar residus • examinar outliers
VALIDACIÓ • Validació aparent (usant una única mostra) • Validació interna (especialment interessant quan volem predir) • Partició (split-sample): conjunt d’ajust o entrenament i conjunt de validació o test. • Validació creuada (cross-validation): k-fold, leave-one-out/jacknife • mostreig amb reemplaçament (bootstraping) fins tenir n mostres. Es calcula el model amb aquesta mostra i es compara amb la original. Caldrà fer x repeticions del procediment. • Validació externa (usant una mostra independent)
k1 k2 k3 … Kn-1 kn Avaluació del model: K-folders cross-validation AVALUACIÓ=(RMSE k1+RMSE k2+…+RMSE kn)/n 1ª iteració Ajust: f(k2,k3,…,kn-1,kn) Test: k1 2ª iteració Ajust: f(k1,k3,…,kn-1,kn) Test: k2 … nª iteració Ajust: f(k1,k2,k3,…,kn-1) Test: kn
Resistents a les violacions de les assumpcions: • ridge regression • robust regression • Ajustos locals en lloc de globals: • geographically weighted regression • locally weighted /segmented regression • Naturalesa de la variable dependent: • regressió logística • cox regression • Ajust de funcions paramètriques no lineals: • regressió no lineal: a+bx+cx2 / a+b*logx • regressió factorial: a+bx1+cx2+dx1x2
Geographically weighted regression Weighting function Bandwidth
estudiar la variació en y causada per x (pot no ser ni efecte directe ni únic efecte) • descriure lleis científiques (model matemàtic millor que empíric) • predicció • substitució de variables (mesures indirectes) • interpolació espacial (global i inexacte)
Sokal, R. i Rohlf, J. 1995. Biometry: the principles and practice of statistics in biological research. 3ª edició. Ed. Freeman and Company. New York. StatSoft, Inc. (1999). STATISTICA for Windows [Computer program manual]. Tulsa, OK: StatSoft, Inc., WEB:http://www.statsoft.com Legendre, P. i Legendre, L. 1998. Numerical ecology. 2ª edició. Ed. Elsevier Science. Amsterdam.
Miquel Ninyerola Dep. Biologia Animal, Biologia Vegetal i Ecologia Universitat Autònoma de Barcelona miquel.ninyerola@uab.cat tf. 93 581 29 85