210 likes | 375 Views
Multivariata Metoder en översikt. Klara Westling – IVL Svenska Miljöinstitutet AB. Multivariata metoder.
E N D
Multivariata Metoderen översikt Klara Westling – IVL Svenska Miljöinstitutet AB
Multivariata metoder • Multivariat dataanalys omfattar i allmänhet samtidig analys av flera variabler än bara några få. Grundtanken är att ju fler variabler vi har med desto bättre kan vi beskriva den situation vi vill studera. • Världen är multivariat! • Utmaningen är att hantera de korrelationer och samspelseffekter som ofta finns mellan variablerna. Vi har två metodgrupper • Beskrivande analys (BA) • Relationsanalys (RA)
Beskrivandeanalys (BA) • Översikt, sortering och klassificering • Beskrivande analys syftar till att visa strukturen i våra data, både inom observationerna och variablerna, men också dem emellan (bara x-variabler) • Utan kända klasser • Principalkomponentanalys (PCA) • Korrespondensanalys (CA) + kanonisk CA • Faktoranalys (FA) • Klusteranalys (KA) • Med kända klasser • KNN – K närmaste grannar • SIMCA (anv. PCA) • PLS-DA
Principalkomponentanalys (PCA) • Arbetshästen vid multivariat dataanalys • Finner dominanta korrelationsstrukturer i data • Separerar struktur från brus • Avvikare syns lätt • Klarar bortfall i data (dock inte alla algoritmer) • Lämplig för översikt, sortering och klassificering • Vid förekomstdata av djur och växter kan dock CA vara att föredra
Use of studded tyres Use of studded tyres PM10 content PM10 content NO2 NO2 S T Wood fuel burning Wood fuel burning W F B NO2 PCA – kortfattad beskrivning • Kort exempel med olika källors påverkan på PM10 i luften • x-variabler: Dubbdäck, vedeldning, avgaser (NO2) (eg. 6 st) • y-variabel: PM10 i luften • 6 modeller (2 månader/modell), varierar över året • PM10 predikteras baserat på x-variabler och modeller
Exempel – PCA - Arbetslöshet Data: Arbetslöshet i % inom olika sektorer för länder i Europa (3 grupper: EEC, ickeEECväst, ickeEECöst)
Exempel – PCA - Arbetslöshet Med 2 komponenter förklaras 62% av variationen i data
Exempel – PCA - Arbetslöshet Man kan också se på observationer och variabler i samma bild
Exempel – PCA - Arbetslöshet • Resultaten kan också visas i 3D: Unemploy
Exempel – PCA - Arbetslöshet • Även den omodellerade variationen (residualen) hos varje observation kan visualiseras
Faktoranalys (FA) • Äldre broder till PCA • Modellerar både strukturen och bruset • Bygger på ett antal statistiska förutsättningar som skall vara uppfyllda • Inget för nybörjaren
Korrespondensanalys (CA) • Kusin till PCA • Användningsområden parallella med PCA • Används då beskrivningsvariablerna har en klockformad fördelning (förekomstdata av djur och växter) • PCA baseras på linjär fördelning (t.ex. vattenkemi) PCA
Klusteranalys (KA) • Grupperarobservationernaenligt “likhet” • Ingenunikprimärlösningpgamångauppdelningsmetoderochmångalikhetskriterier • Resultatetpresenterasoftai ettdendrogram (träddiagram)
Exempel – Klusteranalys (okända klasser) Data: Arbetslöshet i Europa
SIMCA – klassificering • Bygger på separata PCA-modeller för varje klass • Nya observationer klassas till den klass som den passar • Metoden upptäcker observationer som inte passar till någon klass!
Sammanfattning – beskrivandeanalys • PCA är den rekommenderade metoden Den är robust och väl lämpad för att: • Visualisera data • Finna grupperingar • Upptäcka avvikare • Klassificera nya observationer • Bra grafisk diagnostik och presentation • CA kan användas vid förekomstdata (som har klockformad respons hos beskrivningsvariablerna) • KA kan användas för att objektivt dela in ett material i grupper
Relationsanalys (RA) • Sambandochprediktioner (x- och y- variabler) • relationsanalyssyftar till attbeskrivarelationenmellantvågrupperavvariabler. Oftakallar vi den enagruppenförförklaringsvariabler (x) och den andraförberoendevariabler (y). Vi vill vet hurförklaringsvariablernakananvändasförattbeskrivaochpredikteraberoendevariablerna. • Med ursprungsvariabler • MLR, SMLR • Med latentavariabler / underrumsmetoder • PLS, (ANN)
MLR och SMLR (med ursprungsvariabler) • MLR - multipellinjär regression • Den mestfelanvändametoden • Fungerardåligt med korreleradevariabler • Hanterarintebortfall • Klararbara en y-variabel per modell • Antaratt x ärexaktoch 100% relevant, endastrekommenderaddå man gjortfaktorförsökinnanoch man vet att x ärdet man anger • SMLR – stegvis MLR • Väljer en delmängdav x-variablernaberoendepåderasmodelleringsförmåga • Stor risk för övermodellering (overfit) • Urvalet och resultaten är mycket data- och brusberoende – det finns väldigt många sätt att välja X-variabler i stora dataset
PLS (latentavariabler) • Maximerarkovariansenmellan x och y • Korreleradevariablergerstabilaremodell • Finnersambandinärvaroavbådebrusochbortfall • Klararflera y isammamodell • Intern valideringreducerarriskenförövermodellering • Grafisk presentation fördiagnostikochprediktion • Upptäckeravvikareinförprediktionerförnyaobservationer • Olinjäritetmellan x ochyfångas med transformationeroch/ellertilläggavhögreordningens termer av x (ex: x32, x1*x5, x22*x7) • Kan ocksåanvändasföridentifieringavtidsseriemodellertyp AR, MA och ARMA med tilläggavtidsförskjutna x- och/eller y-variablerpå x-sidan
Exempel PLS - Krondroppsdata • Data: X – tid, plats, nederbörd, Y – analyser av 12 olika föroreningar i krondropp
Sammanfattaning - relationsanalys • PLS passari de flesta fallen • PLS äröverlägset MLR ochSMLR närdetfinnsmångaochkorrelerade x-variabler • PLS harbättregrafiskadiagnostiskamöjligheterän de andrametoderna • Stegvis regression ärinteallsrekommenderat, stor risk förövermodellering • ANN (neuralanätverk) kanman prövaomingetannatfungerar