490 likes | 679 Views
Metode si sisteme de analiza si interpretare a imaginilor. Prezentari de curs – sem. II 2011-2012. Metode si sisteme de analiza si interpretare a imaginilor (MSAII). Curs 9. Curs 9 – Clasificatoare probabilistice; clasificatoare bazate pe optimizare Clasificatoare probabilistice
E N D
Metode si sisteme de analiza si interpretare a imaginilor Prezentari de curs – sem. II 2011-2012
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Curs 9 – Clasificatoare probabilistice; clasificatoare bazate pe optimizare • Clasificatoare probabilistice • Clasificatoare bazate pe optimizare
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Clasificatoare probabilistice • Numite si clasificatoare statistice • Cel mai important reprezentant:Clasificatorul Bayesian (bazat pe implementarea regulii lui Bayes) • => performante foarte bune de clasificare, • => cu conditia cunoasterii sau posibilitatii estimarii corecte a probabilitatilor conditionale + probabilitatilor neconditionale ale claselor • => regula lui Bayes este utilizata in multe situatii in conversia unor clasificatoare neprobabilistice in variante probabilistice (ex. Retele neuronale; masini cu vectori suport)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Regula lui Bayes (1) • Esenta regulii lui Bayes = formularea matematica a unei reguli care ne arata cum ar trebui sa ne modificam asteptarile existente tinand cont de evidenta curenta observata, astfel incat sa minimizam probabilitatea luarii unei decizii eronate intr-o situatie noua. • Exemplu clasic: un nou-nascut observa rasaritul soarelui pt. prima data. Deocamdata nu stie daca soarele va rasari si maine => pt. el, probabilitatea ca soarele sa rasara si maine = probabilitatea ca soarele sa nu mai rasara maine = 1/2. A doua zi soarele rasare din nou => isi actualizeaza probabilitatile probabilitatea ca soarele sa rasara si in ziua urmatoare = 2/3, iar probabilitatea ca soarele sa nu mai rasara in ziua urmatoare =1/3, s.a.m.d. => asteptarile initiale existente se actualizeaza de la incertitudine maxima la aproape sigur. • Matematic: regula lui Bayes = bazata pe probabilitati conditionale. • Probabilitatile conditionale= probabilitatea de aparitie a unui eveniment in conditiile unei evidente observate.
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Petala Sepala Iris Versicolor Iris Setosa Iris Virginica • Regula lui Bayes (2) • Exemplu:setul de date Iris al lui Fisher • Problema:clasificarea florilor de Iris in una din 3 clase: Versicolor, Setosa, Virginica => numarul de clase: K=3; clasele C1, C2, C3 cu etichetele: y1=“Versicolor”, y2=“Setosa”, y3=“Virginica”. • Trasaturi discriminative masurate:lungimea sepalei (LS), latimea petalei (WS), lungimea petalei (LP), latimea petalei (WP) (in cm) => spatiul trasaturilor 4-dimensional, F=4 => R4; vectorii de trasaturi: x=[LS WS LP WP]T.
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Regula lui Bayes (3) • Terminologie: P(Ci|x) = probabilitatea a-posteriori (in engleza: posterior) • Regula lui Bayes: • Regula de decizie Bayes: asigneaza x la clasa Cj pentru care:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Regula lui Bayes (4) • Explicarea probabilitatilor: • P(Ci) = probabilitatea de aparitie a unei date din clasa Ci, i=1,2,3 probabilitatea ca, dintr-un set posibil de flori de iris observate, sa avem statistic mai multe flori de iris din clasa Versicolor sau Setosa sau Virginica (dupa cat sunt de frecvente/de rare): P(C1) = frecventa florilor de iris de tip Versicolor; P(C2) = frecventa florilor de iris de tip Setosa; P(C3) = frecventa florilor de iris de tip Virginica. Implicit, P(C1)=P(C2)=P(C3)=1/3. • P(Ci) = probabilitatea a-priori (engleza: prior) • Obs.: In practica – daca nu stim valorile P(Ci) dar avem un set de date de antrenare Xtrn={xt,1, xt,2, …, xt,Ntrn} suficient de mare, cu etichetele Ytrn={yt,1,yt,2,…,yt,Ntrn}, putem estima:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Regula lui Bayes (5) • P(x|Ci) = probabilitatea ca, atunci cand stim sigur ca “extragem” (observam) o data din clasa Ci, vectorul de trasaturi al acestei date sa fie x ( sa fie, in RF, punctul x). P(x|Ci) = posibilitatea (in engleza: likelihood) Ne intereseaza sa descriem P(x|Ci) pentru toate valorile posibile a lui x din RF sa descriem distributia sau densitatea de probabilitate p(x|Ci) Terminologie:p(x|Ci) = densitatea de probabilitate conditionata de clasa Exemplu: stim sigur ca observam flori de iris din clasa Versicolor => P([4.7 3.2 1.3 0.2]|C1)=0.01, in timp ce P([6 2.2 4 1]|C1)=0.9
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Regula lui Bayes (6) • P(x) = probabilitatea sa observam vectorul de trasaturi x in general, indiferent de clasa din care observam date => P(x) = probabilitatea de aparitie a unui vector de date x, neconditionata de clasa : ( numim P(x) sau p(x) = evidenta) Din nou => daca ne intereseaza P(x) pentru orice x din RF => ne intereseaza densitatea de probabilitate neconditionala p(x) = probabilitatea observarii valorii x dintre toate valorile posibile in RF. • Probabilitatile discutate: P(Ci); P(x|Ci); P(x) – pot fi estimate dintr-un set suficient de mare de date de antrenare, Xtrn, pt. Ntrn – mare. (p(x|Ci) si p(x) pot avea forme parametrice sau neparametrice) • In faza de clasificare/recunoastere de obiecte: receptionam un obiect descris prin x’ care nu este din setul Xtrn => dorim sa calculam probabilitatea ca el sa apartina clasei Ci . (In final => eticheta obiectului = eticheta clasei de probabilitate maxima) => vrem sa calculam probabilitatea de a avea “aparuta” clasa Ci, conditionata de faptul ca am observat vectorul x’ P(Ci|x’)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Estimarea probabilitatilor (1) • Estimarea neparametrica: • Dintr-un set de date de antrenare de dimensiune foarte mare => pe baza histogramelor datelor de antrenare per clase: • Generarea a K submultimi de date de antrenare (1 submultime/clasa): • Xtrn=Xtrn,C1 U Xtrn,C2 U….U Xtrn,CK • Estimarea probabilitatilor a-priori: • Estimarea posibilitatilor (probabilitatilor conditionale):
Curs 9 • Estimarea probabilitatilor (2) Exemplu: Metode si sisteme de viziune artificiala (MSVA)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Estimarea probabilitatilor (3) Estimarea neparametrica a functiilor densitate de probabilitate cu ferestre Parzen • Fie multimea datelor de antrenare Xtrn={xt,1, xt,2, …, xt,Ntrn} o multime de Ntrn esantioane extrase din spatiul trasaturilor RF (esantioane semnificative pentru problema analizata; Ntrn suficient de mare pt. a fi semnificativ). • Fie o partitionare a spatiului trasaturilor RF in regiuni elementare Rj, j=1,2,…,N. Pt. orice regiune R din RF, probabilitatea ca o data x sa “cada” in R este: • Daca regiunile R sunt suficient de mici astfel incat p(x)≈cst. in regiune =>: • unde V = volumul regiunii R.
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Analizand esantioanele din Xtrn => numaram cate esantioane din Xtrn “cad” in R; fie k = nr. de esantioane din Xtrn gasite in regiunea R • Putem aproxima, pe baza esantioanelor din Xtrn, P prin: • Din egalarea celor 2 expresii ale P =>: • Aceasta expresie reprezinta estimarea neparametrica a p(x) din datele de antrenare. • Observatie:Daca folosim Xtrn,Ci , i=1,2,…,K in loc de Xtrn => putem estima probabilitatile conditionale (posibilitatile): • unde ki = numarul esantioanelor din Xtrn,Ci din interiorul regiunii R.
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Ferestre Parzen (=functii-kernel) (1) • Forma regiunilor R care partitioneaza spatiul trasaturilor afecteaza volumul V al regiunii si numarul de esantioane k din fiecare regiune. • Regiunea R poate fi definita prin functia sa de apartenenta, numita functie fereastra sau fereastra Parzen sau functie kernel. • Cea mai simpla forma de regiune: un hipercub in RF ( kernel uniform). Fie h = latura hipercubului => V = hF =>: • Pentru estimarea p(x), consideram regiunea R hipercubica al carei centru de greutate este x => un esantion xi=[xi1 xi2 … xiF] este in R daca si numai daca:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Ferestre Parzen (=functii-kernel) (2) • Ex: daca F=2 => R = patrat, centrat pe x: • Fie functia φ: RF→R, definita prin: • Numim φ de aceasta forma – fereastra Parzen uniforma sau kernel uniform. • Observam ca:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Ferestre Parzen (=functii-kernel) (3) • φ((xi-x)/h) = indicator al apartenentei esantionului xi la regiunea R centrata in x • putem exprima nr. de esantioane k din cele Ntrn aflate in R prin: • estimarea densitatii de probabilitate p(x) pentru kernel uniform (fereastra Parzen uniforma): • Functia φ rectangulara (uniforma) are dezavantajul unor tranzitii abrupte (discontinuitati) in estimarea p(x). In locul ei => putem folosi alte forme de ferestre; ex: triunghiulara; Gaussiana.
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Ferestre Parzen (=functii-kernel) (4) • Def. O functie kernel (=fereastra Parzen) este o functie φ:RF→R+ cu proprietatile: • P1. φ(0) = max{φ(x)} • P2. Integrala lui φ(x) peste RF este 1 • P3. φ(-x) = φ(x). • Estimam probabilitatile cu:
Ferestre Parzen (=functii-kernel) (5) • Exemple de functii kernel (ferestre Parzen):
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Estimarea parametrica a probabilitatilor • Estimarea se face tot pe baza setului de date de antrenare, • Dar: • => se considera cunoscuta forma functiei densitate de probabilitate p(x|Ci) • => se estimeaza parametrii functiei • Estimarea probabilitatilor a-priori: ca in metodele neparametrice: • Estimarea posibilitatilor (probabilitatilor conditionale) alegerea formei functiei + estimarea parametrilor functiei. • => Cel mai adesea: functia densitate de probabilitate = functia Gaussiana ( distributia normala):
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Semnificatia parametrilor: • Σi – matricea de covarianta a datelor din clasa Ci; estimata din Xtrn,Ci • μi – vectorul medie al datelor din clasa Ci; estimat din Xtrn,Ci: • Daca Xtrn,Ci={x1,Ci, x2,Ci, …, xNi,Ci} =>:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Exemplu numeric: Sa se exprime analitic clasificatorul bazat pe regula de decizie Bayes, considerand un model Gaussian al posibilitatilor
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Clasificatoare bazate pe optimizare • Numite si clasificatoare geometrice, pt. ca principiul construirii clasificatorului = deducerea unor granite (suprafete) de decizie (linii, plane, hiperplane) in spatiul trasaturilor • Clasificatoarele bazate pe optimizare = sisteme instruibile • Necesita un set de date de antrenare = date + etichete,Xtrn={xt,1, xt,2, …, xt,Ntrn} cu etichetele Ytrn={yt,1,yt,2,…,yt,Ntrn}, xt,i in RF, i=1,2,…,Ntrn; yt,i – eticheta clasei C1, C2, …, CK(K – nr. de clase) • Ntrn – suficient de mare pt. realizarea unei invatari corecte cu capacitate de generalizare la date necunoscute (de test)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Clasificatoare bazate pe optimizare • In etapa de construire a clasificatorului: Deducerea suprafetelor de separare Si ale datelor din Xtrn din cele K clase, prin minimizarea unei functii de eroare intre asignarea decisa de clasificator si asignarea stabilita prin etichetele din Ytrn.Exemple: minimizarea erorii aparente; minimizarea erorii medii patratice (MSE) • In etapa de clasificare a datelor: Un vector x reprezentat in RF (care nu a fost prezent in Xtrn) este prezentat clasificatorului => se examineaza pozitia lui fata de suprafetele de decizie (separare) Si => in functie de pozitia lui fata de suprafetele de separare (decizie, discriminare) ( fata de granitele claselor) = eticheta clasei
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Categorii de clasificatoare bazate pe optimizare • Dupa numarul de clase K: • Clasificatoare binare => K=2 • Clasificatoare multiclasa => K>2 • Dupa forma geometrica a granitelor claselor: • Clasificatoare liniare discriminanti liniari => forma liniara a suprafetei de decizie in RF • Clasificatoare neliniare discriminanti neliniari => forma neliniara a suprafetei de decizie in RF
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Principali reprezentanti ai clasificatoarelor bazate pe optimizare 1. Clasificatorul bazat pe discriminarea liniara optima a datelor (linear discriminant analysis = LDA) ( clasificatorul Fisher) 2. Clasificatoare bazate pe vectori suport ( masini cu vectori suport, support vector machines = SVM) (fundamentate matematic de Vapnik)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Clasificatorul LDA binar (1) • - Spatiul trasaturilor: RF => F = dimensiunea spatiului trasaturilor; F>1 • - Clasele: K=2; etichete: ω1 pt. clasa 1; ω2 pt. clasa 2 • - Date de antrenare: Xtrn={xt,1, xt,2, …, xt,Ntrn}; etichetele Ytrn={yt,1,yt,2,…,yt,Ntrn}, • xt,i in RF, i=1,2,…,Ntrn; yt,i – eticheta clasei, yt,i=ω1 sau ω2 • - Date de antrenare per clase: N1 date in clasa 1; N2 date in clasa 2; N1+N2=Ntrn. • X(1)trn={x(1)t,1, x(1)t,2,…,x(1)t,N1} – datele din clasa 1; • X(2)trn={x(2)t,1, x(2)t,2,…,x(2)t,N2} – datele din clasa 2; • X(1)trnUX(2)trn = Xtrn • => LDA binar: gaseste o dreapta in spatiul RF si proiecteaza datele din Xtrn pe aceasta dreapta => descrie datele din Xtrn prin proiectiile lor pe dreapta prin multimea de scalari Prtrn={xpr,1, xpr,2,…,xpr,Ntrn}, xpr,i – numar real • reduce dimensiunea setului de date de antrenare de la F la 1 => algoritmi de separare mult mai simpli – unidimensionali in loc de F-dimensionali! • => Problema: exista o infinitate de drepte posibile in RF => care dreapta esteoptima pentru separarea corecta a datelor din Xtrn in cele 2 clase? cum sa alegem parametrii dreptei optime in RF ?
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Clasificatorul LDA binar (2) • Consideratii geometrice: • - Discutie simplificata: F=2 => spatiu bidimensional de trasaturi: • xt,i=[x1,ix2,i]T; yt,i = ω1 sau ω2; i=1,2,…,Ntrn • => o dreapta in RF = R2: Normala la dreapta = vectorul w Dreapta in discutie; Ecuatia dreptei: wTx+w0=0 pt. F=2: w1x1+ w2x2+w0=0 (w1 – coordonata orizontala a w; w2 – coordonata verticala a w)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 xpr,i xt,i • Clasificatorul LDA binar (3) • - Consideram acum: • Un punct din setul de antrenare, xt,i • Dreapta pe care se proiecteaza xt,i este vectorul normal wxpr,i=proiectia lui xt,i pe dreapta w ( pe normala in origine la dreapta wTx=0) =>: Dreapta pe care se proiecteaza datele Dreapta “separatoare” a datelor intre clase => Discriminantul (pragul) intre clase = -w0 / ||w||
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Clasificatorul LDA binar (4) • Exemplu: (rosu – clasa 1; albastru – clasa 2)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 f(x)<0 f(x)=0 f(x)>0 f(x)>0 f(x)<0 w w f(x)=0 f(x)=wTx+w0 Dreapta optima w w f(x)>0 f(x)>0 f(x)=0 f(x)<0 f(x)<0 f(x)=0 • Clasificatorul LDA binar (5) • - Selectia parametrilor w, w0: • Afecteaza separabilitatea proiectiilor ( datele din cele doua clase diferite sa nu fie intrepatrunse) => determinata de directie, w • Afecteaza corectitudinea separarii proiectiilor prin semnul lor in clase => pt. wdat, determinata de parametrul de translatie, w0
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Clasificatorul LDA binar (6) • - Criteriul lui Fisher pt. selectia parametrilor w, w0 – formulat matematic: • Directia w optima = directia w a dreptei pt. care • 1) distantadintre proiectiile centrelor claselor pe dreapta w = maxima • + • 2) varianta proiectiilor datelor din fiecare clasa ( variantele intra-clasa pentru fiecare clasa) = minima • Valoarea w0optima = valoarea scalara care conduce la minimizarea erorii de clasificare in setul datelor de antrenare • Regula de construire a clasificatorului de gasire a parametrilor functiei de decizie f(x)=wTx+w0: w = vectorul in spatiul F-dimensional care maximizeaza functia:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Clasificatorul LDA binar (7) • - Calculul functiei JFisher(w) – din multimea proiectiilor datelor de antrenare, Prtrn={xpr,1, xpr,2,…,xpr,Ntrn}, , pt. K=2 clase: se considera (uzual) ||w||=1 => • Separam proiectiile datelor din cele 2 clase in 2 multimi: • Pr(1)trn={x(1)pr,1, x(1)pr,2,…,x(1)pr,N1} – datele din clasa 1, si • Pr(2)trn={x(2)pr,1, x(2)pr,2,…,x(2)pr,N2} – datele din clasa 2; N1+N2=Ntrn • Calculul variantei inter-clase estimarea separabilitatii proiectiilor centrelor claselor: • 1.1. Calculam si • 1.2. Estimam varianta inter-clase ca diferenta2 intre centrele claselor:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Clasificatorul LDA binar (8) • Calculul variantei intra-clase, pt. fiecare clasa: • si • =>Estimarea functiei J(w):
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Clasificatorul LDA binar (9) • - Calculul parametrului optim w: • woptim = acel w care maximizeaza functia J(w) pentru care • - Solutia explicita: rescriem J prin rescrierea termenilor in functie de datele de antrenare: • a) Notam multimile datelor de antrenare din fiecare clasa: • X(1)trn={x(1)t,1, x(1)t,2,…,x(1)t,N1} – datele din clasa 1, si • X(2)trn={x(2)t,1, x(2)t,2,…,x(2)t,N2} – datele din clasa 2. • b) Inlocuim in m1, m2, s1, s2: • Notam centrele claselor datelor neproiectate prin vectorii μ1[F×1], μ2[F×1]: • =>
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (10) Notam matricile de covarianta ale datelor neproiectate prin Σ1[F×F], Σ2[F×F]: => => Putem rescrie JFisher(w) intr-o forma in care w intervine explicit: O forma mai avantajoasa a J(w) se obtine prin rescrierea numitorului functiei sub forma:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (11) Cum obtinem: Termenul are forma unei matrici de imprastiere, pe care o numim matrice de imprastiere inter-clase, SB[F×F]: Similar, numim matricea - matrice de imprastiere intra-clase, si o notam prin SW[F×F]: => Putem rescrie:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (12) Vectorul woptim este cel care maximizeaza functia J este cel pt. care: => w optim este solutia ecuatiei de mai sus, care maximizeaza JFisher(w). Daca rescriem aceasta ecuatie sub forma: =>w= un vector propriu al SW-1SB;JFisher(w)= valoarea proprie corespunzatoare.
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (13) Dorim maximizarea JFisher(w) JFisher(w) = cea mai mare valoare proprie a matricii SW-1SB;w optim = vectorul propriu corespunzator ei. Observatie: In concluzie:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Clasificatorul LDA binar (14) • Alegerea parametrului w0: • = valoarea de prag care minimizeaza eroarea de clasificare in multimea datelor de antrenare. • Calculul erorii de clasificare in setul de antrenare: • unde = rezultatul clasificarii, dat de functia de decizie a clasificatorului: • (ex. +1 – clasa 1; -1 – clasa 2) • => w0 = valoarea pt. care eroarea e este minima
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Calcul decizie sign(wTx+w0) y=-1 – clasa 2 y=+1 – clasa 1 • Clasificatorul LDA binar in faza de clasificare • Etapa de clasificare pt. recunoasterea obiectelor:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Analiza LDA multiclasa (1) • - Analiza LDA multiclasa = extensie directa a LDA binar; din nou, notam: • Spatiul trasaturilor: RF => F = dimensiunea spatiului trasaturilor; F>K-1 • Numarul claselor: K>2; • Etichetele asociate claselor:ω1 pt. clasa 1; ω2 pt. clasa 2; … ωK pt. clasa K • Extensia directa a LDA binar:in loc de o singura dreapta de directie w pe care sa proiectam datele din cele 2 clase, definim un numar de K-1 drepte de directii w1, w2,…, wK-1pe care sa proiectam datele reprezentate initial in spatiul F-dimensional => in loc de o directie optima, cautam K-1 directii optime in spatiul F-dimensional care sa defineasca K-1 drepte pe care proiectam datele. • Din perspectiva reprezentarii datelor, putem spune ca, prin analiza LDA multiclasa, reducem dimensiunea spatiului trasaturilor de la F la K-1 => LDA = metoda de selectie a trasaturilor; cele mai relevante K-1 trasaturi se obtin prin combinarea liniara ponderata a celor F trasaturi originale.
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Analiza LDA multiclasa (2) • - Ca si in cazul LDA binar, avem la dispozitie Ntrn date de antrenare, reprezentate in spatiul RF: • Xtrn={xt,1, xt,2, …, xt,Ntrn}, cu etichetele lor Ytrn={yt,1,yt,2,…,yt,Ntrn}, • xt,i in RF, i=1,2,…,Ntrn; yt,i – eticheta clasei, yt,i=ω1, ω2 ,…ωK • - Consideram partitionarea datelor din Xtrn in K submultimi (cate o submultime per clasa): D1, D2, …, DK; D1UD2U…UDK=Xtrn. • Putem exprimamatricile de imprastiere intra-clasaSi[F×F]pentru fiecare clasa i, i=1,2,…,K, sub forma: Ni = numarul de date din multimea Di ( din clasa i), iar μi[F×1] – media datelor din clasa i;xt este o data oarecare din multimea datelor de antrenare.
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Analiza LDA multiclasa (3) • - Matricea de imprastiere intra-clase totala,SW[F×F], se defineste ca suma matricilor de imprastiere individuale ale celor K clase: • - Definirea matricii de imprastiere inter-clase,SB[F×F], este mai putin “evidenta” (iar extinderea de la cazul LDA binar nu este imediata). Pentru definirea SB, definim mai intai o matrice de imprastiere totala, independenta de clasa, ST[F×F], astfel incat: • Daca putem calculaST si cunoastem SW, atunci putem determina si SBprin diferenta dintre ST si SW. • ST fiind matricea de imprastiere totala a datelor din Xtrn independenta de clasa din care fac parte datele, poate fi exprimata (similar matricilor Si) prin:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Analiza LDA multiclasa (4) • Putem exprima vectorul medie μ[F×1] si in functie de mediile claselor, μi[F×1], i=1,2,…,K, astfel: • Cu un artificiu de calcul simplu, putem rescrie: • care se dezvolta sub forma:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Analiza LDA multiclasa (5) • Cum, pe de alta parte, ST=SW+SB, ajungem, prin identificarea termenilor, la forma matricii SB: • Revenind la problema proiectiei datelor in cazul analizei LDA multiclasa: avem cele K-1 drepte de directii wi, i=1,2,…,K-1, wi[F×1] – vectori in spatiul F-dimensional, pe care proiectam datele din multimea de antrenare, xt[F×1]. Considerand vectorii wi de norma 1, proiectia oricarei date xt pe fiecare dreapta este valoarea scalara yt,i: • Putem grupa cele K-1 valori scalare intr-un vector yt[(K-1)×1], si cei (K-1) vectori wi intr-o matrice, astfel incat fiecare vector wi este o coloana a acestei matrici, notate prin W[F×(K-1)].
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 • Analiza LDA multiclasa (6) • Cu aceste notatii, proiectiile oricarei date xt pe cele K-1 drepte pot fi descrise, intr-o singura expresie, prin: • Proiectiile y pot fi separate per clase (daca dorim sa consideram la un moment dat doar proiectiile datelor xt din clasa Di), caz in care, in loc de un vector y de lungime (K-1), avem K vectori yi de aceeasi lungime K-1, i=1,2,…,K. Media proiectiilor datelor dintr-o clasa i oarecare este data de: • Media proiectiilor datelor independenta de clasa va fi:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (7) Media proiectiilor datelor independenta de clasa va fi: Similar, putem exprima matricile de imprastiere ale proiectiilor datelor pe cele K-1 drepte: adica:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (8) Daca in cazul LDA binar, imprastierile proiectiilor datelor erau scalare, in cazul LDA multiclasa, aceste imprastieri sunt de forma matriciala, deoarece proiectiile datelor nu mai sunt scalari, ci vectori de lungime (K-1) (spatiul de trasaturi indus de analiza LDA multiclasa fiind (K-1)-dimensional): In consecinta, pentru exprimarea functiei-obiectiv de maximizat in analiza LDA multiclasa, avem nevoie de o masura scalara a fiecareia din cele doua matrici de imprastiere ale proiectiilor (pentru similaritatea cu LDA binar). Se aleg ca masuri scalare ale imprastierilor proiectiilor (inter, respectiv intra clase), determinantii matricilor corespunzatoare, conducand la urmatoarea forma a functiei-obiectiv de maximizat in analiza LDA multiclasa:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (9) Ca si in cazul LDA binar, cautam vectorii wi coloanele matricii W ( matricea W) care maximizeaza J(W); prin analogie cu LDA binar, aceste coloane sunt vectorii proprii corespunzatori celor mai mari (K-1) valori proprii ale matricii SW-1SB(de altfel, se poate demonstra ca toate celelalte valori proprii sunt zero, cu exceptia a (K-1) valori, pentru aceasta matrice). Obs. Pentru a evita calculul explicit al inversei matricii de imprastiere intraclasa SW, putem rescrie ecuatia care trebuie rezolvata pentru gasirea valorilor proprii sub forma: λ reprezinta valorile proprii cautate; expresia din partea dreapta a fost obtinuta prin inmultirea expresiei initiale cu SW.