450 likes | 620 Views
Tre- og multiveis-analyse En diskusjon av muligheter og begrensninger. av Tobias Dahl. Oversikt. Hva slags data kan vi analysere? Historikk Prinsipal-komponenter Tre-veis og multi-veis analyse Muligheter og begrensninger Eksempler: Bilde/Video-kompresjon Blind kilde-separering
E N D
Tre- og multiveis-analyseEn diskusjon av muligheter og begrensninger av Tobias Dahl
Oversikt • Hva slags data kan vi analysere? • Historikk • Prinsipal-komponenter • Tre-veis og multi-veis analyse • Muligheter og begrensninger • Eksempler: • Bilde/Video-kompresjon • Blind kilde-separering • Konklusjon
Data • 2-veis data: tabeller • 3-veis data: flere ”like” tabeller • Andre eksempler: • 2-veis data: et bilde (rad x kolonne) • 3-veis data: en film (rad x kolonne x tid) • Antagelse • kontinuerlige data
Kjemi & Sensorikk pH • NIR-spektroskopi • Sensorisk Analyse E Prøve # Dommer Salt Sur Merlot 8 1 Shiraz Prøve # Attributt
3-veis = 3-indeks • Prinsipal-komponent-analyse (PCA) er • Multi-dimensjonal… • …men bare 2-veis = 2-indeks Flere Variabler / Dimensjoner... Men én indeks = ”variabel” Variabler Objekter
Historikk • 3-veis faktor-analyse ble startet innen psykometri (Psychometrika) • Brukt for studier av psykologiske profiler • Tucker (1966) • Harshmann (1970, PARAFAC) • Carroll & Chang (1970, CANDECOMP) • Multidimensjonal skalring • En del av INDSCAL • Kroonenberg & De Leeuw (1980) • Kloot & Kroonenberg (1985)
Populært innen kjemometri • Geladi (1989) • Sanchez & Kowalski (1990) • Smilde (1992) • Rasmus Bro (1996-) • Brockhoff, Hirst & Næs (1996) • Hovedgrunn: modell-antagelsene holder svært godt for en rekke problemer på dette feltet.
Prinsipal-komponenter • 2-veis datasett kan representeres ved sine prinsipal-komponenter • Kompresjon • En mer kompakt representasjon / strukturell modell • Tolkning: • Lettere å tolke færre tall (hvis man vet å tolke dem) • Prediksjon • økt robusthet • fjerner ko-lineæritet
Hva er en prinsipal-komponent? Z PC1 Y X
Bi-lineær modellering, PCAytreprodukt variabler 3 objekter 5 + 17 = 15 2 X = t * p’ + E
Mer enn én komponent 3 2 5 1 + = 17 5*3 + 2*1 0 X = T * P’ + E T, P har uavhengige (ortogonale/ortonormale) kolonner
Generalisering (SVD) = X = T * S * P’ + E • Skalerings-matrise S (diagonal) • Singulær-verdi-dekomposisjon • “Overkill” ekstra begrensninger på T og P
Tolkning + = X = T * P’ + E PC2 • Scores T: koordinater i komprimert rom • Ladninger P: “basis-spektra”, latente variabler • Svakhet: T, P ikke unikt bestemt (bare inntil rotasjon) PC1
PCA - Egenskaper • X = TP’ + E • Den mest kompakte representasjonen av X • Gitt et antall komponenter k gir minst kvadrat-feil (|E|) • Beregning: • T og P inneholder bestemte egenvektorer • Algoritmer: NIPALS, SVD
Treveis-analyse • Utfolding eller ikke? • Klassisk analyse • Separat PCA på hver skive • Treveis analyse • Felles basis • “Ekte treveis” • Konsensus-metoder X1 X X1 X2 X3 XUtfoldet
Separat PCA • Aspekter: • Ignorerer sammenhenger mellom skivene + bedre tilpasning (mindre feil) • mindre grad av kompresjon • Vanskelig å tolke • Mindre egnet til prediksjon X1 X
Metoder med felles basis • Tucker 1: felles kolonne-basis T Xi = TPi’+ Ei → ekvivalent med PCA på XUtfoldet • Tucker 2: felles basis for ladninger og scoringer Xi = TWiP’+ Ei • Kan gjøres i “tre retninger” = + = +
Ekte treveis-analyse • PARAFAC (PARalell FACtor analysis) • Generalisert ytreprodukt 2 2 5 = + 17 -3 X = + E
PARAFAC med flere komponenter C X = B A • Generalisering av bi-lineær modellering • Kan generaliseres til multi-lineær modellering
PARAFAC: Unikhet • Dersom • riktig antall komponenter velges • tri-lineær modell riktig • hvis globalt optimum opnåes ...så er PARAFAC-løsningen et estimat av den sanne løsningen. (dette holder ikke for PCA) • “Skoen passer kun til Askepott”
Hva kommer ut av PARAFAC? Både A,B og C kalles ladninger C X Får flere sett ladninger som er koplet = B A B A C Objekt-plott 1 3 5 4 2 Dommer / pH - plott Variabel-plott
Uteliggere • Felles modell for data-blokk • Kan finne uteliggere/avvikere i alle 3 doméner • Objekter som ikke passer • Dommere/Instrumenter som ikke passer • Variabler som har veldig mye eller veldig lite å si • Manglende data • Kan beregne PARAFAC også for disse, men får en dårligere modell • PARAFAC er ikke-sekvensiell • PCA kan beregne én og én komponent • PARAFAC må tilpasses på nytt ved nytt antall komponenter
Validering + valg av komponenter • Kryssvalidering • Sammenheng med eksterne data • Prediksjon: • God modell gir god prediksjon Objekt-kooridnater Respons (konsentrasjon) C X = B A y A = +
Egenskaper ved PARAFAC-modellen • Kjemometri: Stemmer godt med fysikken • Beers lov • Hvis modell-antagelsen feil: • Mange komponenter i PARAFAC
Tucker 3 C G X B = A • Generalisering av SVD • G ikke-diagonal
Hva kommer ut av Tucker 1,2, 3? • Tucker 1: Xi = TPi’ + Ei • Felles scoringer, men forskjellig basis/ladninger ??? • Tucker 2: Xi = TWi P’ + Ei • Hva skjer med Wi? • Tucker 3: • Hva er effekten av G? • Sterke koplinger mellom ladninger/scoringer/andre matriser • Konklusjon: 3-veis visualisering er ikke enkelt !
PARAFAC: Unikhet! Dersom underliggende data tri-lineære: finner orginale strukturer! Færre parametere, dårligere tilpasning Bedre prediksjon! Enkel modell Lett å tolke løsning Passer bare for noen datasett Tung å beregne Tucker 3 Ikke unike ladninger, rotasjon gir lik tilpasning Ortogonale ladninger. Flere parametere, bedre tilpasning Dårligere prediksjon Mer komplisert modell Vanskelig å tolke løsning Passer for alle datasett Lett å beregne PARAFAC & Tucker 3
PARAFAC & Tucker 3Hvilken metode når? • PARAFAC • Hvis a priori kunnskap tilsier det (tri-lineær) • Hvis unikhet ytterst nødvendig • Tucker 3 ellers • Nesten like ’sparsommelig’ som PARAFAC • Mye lettere å beregne
Konsensus-metoder • Generalisert Procrustes Analyse (GPA) • forsøker å gjøre alle skiver like ved transformasjon • T(Xi) = Y + Ei, Y = snitt av T(Xi) • T = rotasjon + skalering (+ sentrering/translasjon) • Generalisert kanonisk analyse (Carroll) • Kan sees på som en konsensus-metode • T(Xi) = Z + Ei, Z = ortogonalt snitt av T(Xi) • T = generell lineær transform
GPA vs. Tre-veis-metoder • Tre-veis er mer generell enn GPA • Bedre tilpasning. • Men: Bruk GPA dersom transformasjon, T = rotasjon + skalering er rimelig f.eks ombytting av variable • Generelt: GPA bedre for utrente dommere, Tre-veis bedre for et ekspert-panel.
Multiveis-metoder • For 2-veis problemer: matrise-algebra • Konseptuelt sprang: 2-veis til 3-veis • Utvikling av notasjon • Khatri-Rao produkt, tensor-algebra • Notasjon generaliseres til n-veis problemer.
Andre og relaterte metoder • N-PLS • Generalisering av PLS til n-veis analogi • PARAFAC2 • Egnet ved skift/forskyninger i spektra. • CANDECOMP • Ekvivalent med PARAFAC (Bro, 1998) • PMF3 • ekvivalent med PARAFAC + positivitets-betingelser og vektet tapsfunksjon • Raskere enn PARAFAC (Gauss-Newton, ikke ALS) • Krever (for) mye minne. • ”Multilinear engine”
RAFA, GRAM, DTD: • Rank Annihilation Factor Analysis • Generalized Rank Annihilation Method • Direct Trilinear Decompostion • GRAFA, GRAM: generaliseringer av RAFA • Hybrider (PARATUCK) • Variansanalyse (Mandel) • PARAFAC kan sees på som en multiplikativ ANOVA
Muligheter og Begrensninger • Eksempel 1: Kompresjon • Bildeanalyse • Eksempel 2: Unikhet • Blind kilde-separering (signalbehandling)
Eksempel 1: Bildekompresjon(2-veis) • Ett enkelt bilde, bi-lineær modell
Video-kompresjon(3-veis) Separat modellering? #1 = #2 = #3 = Film “Frames”
Separat modellering • utnytter ikke temporær likhet mellom bildene. • Felles basis = bedre kompresjon • Tre-veis-modellering = kompakt modell Tunge å beregne, lite brukt
Uteliggere • Når det finnes en ‘modell’ for hele sekvensen, kan man finne avvikere (“avstand fra modell”) • Hvis hvert bilde modelleres enkeltvis er det vanskeligere å bestemme uteliggere
Eksempel 2: Blind kilde-separaring • Sidiropoulos, Bro & Giannakis: • PARAFAC for CDMA (“Code Division Multiple Access”) Base-stasjon • Hver telefon bruker sin egen sprede-kode • MEN: koden trenger ikke være kjent for mottaker (base-stasjon)
3-veis analyse for mottager Sprednings-diversitet (flere “chips”) • Indekser: • Antenne • Symbol • Chip • Gjenvinner signalene fra hver enkelt bruker • Utnytter unikheten i PARAFAC • Antagelse: ingen inter-symbol-interferens (ISI). • Resultat: nesten like bra som ikke-blind Tids-diversitet (flere symboler) Antenne-diversitet (flere stk.)
Sammenlikning med PCA • “Blind identifikasjon er PCA-mannens drøm”. • PCA: Rotasjons-frihet forsøker å rotere til en “sann løsning”. • PARAFAC – unikhet gir “sann løsning”.
Muligheter og fordeler • Meningsfulle modeller for fler-veis data • Unik struktur god tolkning! • Større grad av kompresjon • God ‘modell’ med færre parametre • Uteligger-deteksjon • Robusthet • Gode prediksjonsegenskaper
Begrensninger • Beregningsmessig krevende (PARAFAC) • Konseptuelt vanskeligere enn 2-veis • Ingen statistiske tester • ingen statistisk modell • Ofte dårlig forklart (tensor-algebra) • Lineære metoder (bi-lineære, tri-lineære) • Bare “approksimativt” egnet for ikke-lineære problemer
Konklusjon • Nyttig utvidelse av 2-veis metoder (PCA). • Krever ekspertise (matematikk + data) • Metode-valg avhenger av applikasjon • Krevende, men nyttige vektøy i kassen