1 / 21

Multivariata Metoder en översikt

Multivariata Metoder en översikt. Klara Westling – IVL Svenska Miljöinstitutet AB. Multivariata metoder.

lew
Download Presentation

Multivariata Metoder en översikt

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Multivariata Metoderen översikt Klara Westling – IVL Svenska Miljöinstitutet AB

  2. Multivariata metoder • Multivariat dataanalys omfattar i allmänhet samtidig analys av flera variabler än bara några få. Grundtanken är att ju fler variabler vi har med desto bättre kan vi beskriva den situation vi vill studera. • Världen är multivariat! • Utmaningen är att hantera de korrelationer och samspelseffekter som ofta finns mellan variablerna. Vi har två metodgrupper • Beskrivande analys (BA) • Relationsanalys (RA)

  3. Beskrivandeanalys (BA) • Översikt, sortering och klassificering • Beskrivande analys syftar till att visa strukturen i våra data, både inom observationerna och variablerna, men också dem emellan (bara x-variabler) • Utan kända klasser • Principalkomponentanalys (PCA) • Korrespondensanalys (CA) + kanonisk CA • Faktoranalys (FA) • Klusteranalys (KA) • Med kända klasser • KNN – K närmaste grannar • SIMCA (anv. PCA) • PLS-DA

  4. Principalkomponentanalys (PCA) • Arbetshästen vid multivariat dataanalys • Finner dominanta korrelationsstrukturer i data • Separerar struktur från brus • Avvikare syns lätt • Klarar bortfall i data (dock inte alla algoritmer) • Lämplig för översikt, sortering och klassificering • Vid förekomstdata av djur och växter kan dock CA vara att föredra

  5. Use of studded tyres Use of studded tyres PM10 content PM10 content NO2 NO2 S T Wood fuel burning Wood fuel burning W F B NO2 PCA – kortfattad beskrivning • Kort exempel med olika källors påverkan på PM10 i luften • x-variabler: Dubbdäck, vedeldning, avgaser (NO2) (eg. 6 st) • y-variabel: PM10 i luften • 6 modeller (2 månader/modell), varierar över året • PM10 predikteras baserat på x-variabler och modeller

  6. Exempel – PCA - Arbetslöshet Data: Arbetslöshet i % inom olika sektorer för länder i Europa (3 grupper: EEC, ickeEECväst, ickeEECöst)

  7. Exempel – PCA - Arbetslöshet Med 2 komponenter förklaras 62% av variationen i data

  8. Exempel – PCA - Arbetslöshet Man kan också se på observationer och variabler i samma bild

  9. Exempel – PCA - Arbetslöshet • Resultaten kan också visas i 3D: Unemploy

  10. Exempel – PCA - Arbetslöshet • Även den omodellerade variationen (residualen) hos varje observation kan visualiseras

  11. Faktoranalys (FA) • Äldre broder till PCA • Modellerar både strukturen och bruset • Bygger på ett antal statistiska förutsättningar som skall vara uppfyllda • Inget för nybörjaren

  12. Korrespondensanalys (CA) • Kusin till PCA • Användningsområden parallella med PCA • Används då beskrivningsvariablerna har en klockformad fördelning (förekomstdata av djur och växter) • PCA baseras på linjär fördelning (t.ex. vattenkemi) PCA

  13. Klusteranalys (KA) • Grupperarobservationernaenligt “likhet” • Ingenunikprimärlösningpgamångauppdelningsmetoderochmångalikhetskriterier • Resultatetpresenterasoftai ettdendrogram (träddiagram)

  14. Exempel – Klusteranalys (okända klasser) Data: Arbetslöshet i Europa

  15. SIMCA – klassificering • Bygger på separata PCA-modeller för varje klass • Nya observationer klassas till den klass som den passar • Metoden upptäcker observationer som inte passar till någon klass!

  16. Sammanfattning – beskrivandeanalys • PCA är den rekommenderade metoden Den är robust och väl lämpad för att: • Visualisera data • Finna grupperingar • Upptäcka avvikare • Klassificera nya observationer • Bra grafisk diagnostik och presentation • CA kan användas vid förekomstdata (som har klockformad respons hos beskrivningsvariablerna) • KA kan användas för att objektivt dela in ett material i grupper

  17. Relationsanalys (RA) • Sambandochprediktioner (x- och y- variabler) • relationsanalyssyftar till attbeskrivarelationenmellantvågrupperavvariabler. Oftakallar vi den enagruppenförförklaringsvariabler (x) och den andraförberoendevariabler (y). Vi vill vet hurförklaringsvariablernakananvändasförattbeskrivaochpredikteraberoendevariablerna. • Med ursprungsvariabler • MLR, SMLR • Med latentavariabler / underrumsmetoder • PLS, (ANN)

  18. MLR och SMLR (med ursprungsvariabler) • MLR - multipellinjär regression • Den mestfelanvändametoden • Fungerardåligt med korreleradevariabler • Hanterarintebortfall • Klararbara en y-variabel per modell • Antaratt x ärexaktoch 100% relevant, endastrekommenderaddå man gjortfaktorförsökinnanoch man vet att x ärdet man anger • SMLR – stegvis MLR • Väljer en delmängdav x-variablernaberoendepåderasmodelleringsförmåga • Stor risk för övermodellering (overfit) • Urvalet och resultaten är mycket data- och brusberoende – det finns väldigt många sätt att välja X-variabler i stora dataset

  19. PLS (latentavariabler) • Maximerarkovariansenmellan x och y • Korreleradevariablergerstabilaremodell • Finnersambandinärvaroavbådebrusochbortfall • Klararflera y isammamodell • Intern valideringreducerarriskenförövermodellering • Grafisk presentation fördiagnostikochprediktion • Upptäckeravvikareinförprediktionerförnyaobservationer • Olinjäritetmellan x ochyfångas med transformationeroch/ellertilläggavhögreordningens termer av x (ex: x32, x1*x5, x22*x7) • Kan ocksåanvändasföridentifieringavtidsseriemodellertyp AR, MA och ARMA med tilläggavtidsförskjutna x- och/eller y-variablerpå x-sidan

  20. Exempel PLS - Krondroppsdata • Data: X – tid, plats, nederbörd, Y – analyser av 12 olika föroreningar i krondropp

  21. Sammanfattaning - relationsanalys • PLS passari de flesta fallen • PLS äröverlägset MLR ochSMLR närdetfinnsmångaochkorrelerade x-variabler • PLS harbättregrafiskadiagnostiskamöjligheterän de andrametoderna • Stegvis regression ärinteallsrekommenderat, stor risk förövermodellering • ANN (neuralanätverk) kanman prövaomingetannatfungerar

More Related