190 likes | 333 Views
Etäisyysmitat ja Batch learning. Sisältö. Jakaumien etäisyyksien mittaaminen Euklidinen ja Kullback-Leibler mitat Batch learning mallien yksinkertaistaminen mallin koko ja sen optimointi käytännön huomioita. Etäisyysmitat (1/5). Todellinen tai kohde jakauma x
E N D
Sisältö • Jakaumien etäisyyksien mittaaminen • Euklidinen ja Kullback-Leibler mitat • Batch learning • mallien yksinkertaistaminen • mallin koko ja sen optimointi • käytännön huomioita
Etäisyysmitat (1/5) • Todellinen tai kohde jakauma x • esim. virheetön arpa x=(1/6, 1/6, 1/6, 1/6, 1/6, 1/6) • Likimääräiset tai arvio jakaumat yja z • esim. kokeista: y = (0.10, 0.20, 0.20, 0.20, 0.10, 0.20) z = (0.15, 0.15, 0.25, 0.10, 0.10, 0.15) • Kumpi jakaumista y, zlähempänä jakaumaa x?
Merkitään ai:llä i:ttä ulostuloa Neliöllinen sakko määritellään tällöin y:lle Etäisyysmitat (2/5) • Keskimääräinen sakko on tällöin
Etäisyysmitat (3/5) Määritellään jakaumien xja yneliöllinen etäisyys (Euklidinen etäisyys) seuraavasti • x=(1/6, 1/6, 1/6, 1/6, 1/6, 1/6) • y = (0.10, 0.20, 0.20, 0.20, 0.10, 0.20) • z = (0.15, 0.15, 0.25, 0.10, 0.10, 0.15) • distQ(x,y) = 0.0133 • distQ(x,y) = 0.0167
Etäisyysmitat (4/5) • Vastaavasti määritellään logaritminen pisteytyssääntö • Mistä etäisyydeksi (Kullback-Leibler divergenssi) vastaavasti
Euklidinen etäisyys Symmetrinen x,y Kullback-Leibler divergenssi Epäsymmetrinen x,y Etäisyysmitat (5/5) Molemmat aitoja mittoja:
T1 T2 T3 T4 T5 Batch learning - intro (1/3) Esimerkki: viisikirjaimiset sanat kirjaimista ’a’ ja ’b’ aabaa, abbaa, bbbaa… -frekvenssi analyysi
T1 T2 T3 T4 T5 T1 T2 T3 T4 T5 Batch learning – intro (2/3) = P = P* distQ(P,P*)=0,000337
T1 T2 T3 T4 T5 Mmax T1 Msimp T2 T3 vs. T4 T5 Batch learning – intro (3/3) Kumpi parempi? Yksinkertaisuus vs. Tarkkuus Miten verrataan?
Mallin koko Määritellään jokaiselle muuttujalle A, jonka vanhemmat ovat pa(A), taulukon P(A|pa(A)) koko Sp(A):na. Tällöin mallin M koko määritellään T1 T2 T3 T4 T5 Msimp T1 Size(Msimp)=2+4+4+4+4=18 Size(Mmax)=2+4+8+16+32=62 T2 T3 Mmax T4 T5
Mallin optimointi (1/2) Määritetään hyväksymismitta (acceptance measure) • Valitaan käytettävä etäisyysmitta, hyväksyttävän etäisyyden yläraja ja vakio k. • Minimoidaan Acc
T1 T2 T3 T4 T5 Mallin optimointi (2/2) Optimi malli: Size(Mmin)=2+4+4+2+8=20 Acc(P,Mmin)=20,14 Mmin k = 10 000 jamax(dist)=0,0005 T1 P(Word|Mmax)=P(Word) distQ = 0 Acc = Size(Mmax)=62 T2 T3 Size(Msimp)= 18 Acc(P,Msimp)=21,37 T1 T2 T3 T4 T5 T4 T5 Mmax
Batch learning käytännössä (1/4) • Jos muutujia paljon, ei ole mahdollista aloittaa Mmax:sta • Aloitetaan hallittavasta mallista ja muutetaan vaiheittain lisämäällä, poistamalla ja uudelleen suuntaamalla linkkejä • huomioidaan kausaalisuus • asiantuntijalausunnot Riski- tekijä Hoito Tauti Oire
Batch learning käytännössä (2/4) Suuri datavarasto • vaikea laskea Eukliidinen etäisyys • käytetään logaritmista pisteytystä SM(c)=-log2PM(c) SM(C) - SC(C) = n distK(PM,PC) jos tapaukset riippumattomia • SM(C)=-log2PM(C), PM(C)=P(C|M)
Batch learning käytännössä (3/4) • tietokannan jakauma ei välttämättä ole ’todellinen’ jakauma, vaan useinmiten otos siitä • Merkitän tätä tietokantaa C:llä • maksimoidaan
Batch learning käytännössä (4/4) Muita yleisiä ongelmia • Arvoja puuttuu • Useita tietokantoja lomittaisista sarjoista muuttujia, joilla eri määrät tapauksia • C voi olla erittäin suuri
Yhteenveto • Jakaumien vertailu etäisyysmitoilla • Batch learning • Muodostetaan yksinkertaisempi malli (Bayesverkko) tutkittavasta systeemistä, siten että informaatiota menetetään mahdollisimman vähän
Kotitehtävä • Määritä seuraavien mallien (Bayesverkkojen) koot, kun Bi:t ovat kaksi tilaisia ja Ti:t kolmi tilaisia muuttujia • Heitettäessä noppaa 100 kertaa saatiin seuraavat frekvenssit (15, 16, 22, 14, 21, 14). Laske saadun jakauman Eukliidinen etäisyys virheettömän nopan todellisesta jakaumasta. Vertaa saamaasi arvoa BL osiossa esitetyn yksinkertaisimman mallin (Msimp) etäisyyteen 0,000337. B1 B2 B1 T1 B2 T3 B5 M1: M2: B3 T2 B4