Etäisyysmitat ja Batch learning

Etäisyysmitat ja Batch learning

Sisältö • Jakaumien etäisyyksien mittaaminen • Euklidinen ja Kullback-Leibler mitat • Batch learning • mallien yksinkertaistaminen • mallin koko ja sen optimointi • käytännön huomioita

Etäisyysmitat (1/5) • Todellinen tai kohde jakauma x • esim. virheetön arpa x=(1/6, 1/6, 1/6, 1/6, 1/6, 1/6) • Likimääräiset tai arvio jakaumat yja z • esim. kokeista: y = (0.10, 0.20, 0.20, 0.20, 0.10, 0.20) z = (0.15, 0.15, 0.25, 0.10, 0.10, 0.15) • Kumpi jakaumista y, zlähempänä jakaumaa x?

Merkitään ai:llä i:ttä ulostuloa Neliöllinen sakko määritellään tällöin y:lle Etäisyysmitat (2/5) • Keskimääräinen sakko on tällöin

Etäisyysmitat (3/5) Määritellään jakaumien xja yneliöllinen etäisyys (Euklidinen etäisyys) seuraavasti • x=(1/6, 1/6, 1/6, 1/6, 1/6, 1/6) • y = (0.10, 0.20, 0.20, 0.20, 0.10, 0.20) • z = (0.15, 0.15, 0.25, 0.10, 0.10, 0.15) • distQ(x,y) = 0.0133 • distQ(x,y) = 0.0167

Etäisyysmitat (4/5) • Vastaavasti määritellään logaritminen pisteytyssääntö • Mistä etäisyydeksi (Kullback-Leibler divergenssi) vastaavasti

Euklidinen etäisyys Symmetrinen x,y Kullback-Leibler divergenssi Epäsymmetrinen x,y Etäisyysmitat (5/5) Molemmat aitoja mittoja:

T1 T2 T3 T4 T5 Batch learning - intro (1/3) Esimerkki: viisikirjaimiset sanat kirjaimista ’a’ ja ’b’ aabaa, abbaa, bbbaa… -frekvenssi analyysi

T1 T2 T3 T4 T5 T1 T2 T3 T4 T5 Batch learning – intro (2/3) = P = P* distQ(P,P*)=0,000337

T1 T2 T3 T4 T5 Mmax T1 Msimp T2 T3 vs. T4 T5 Batch learning – intro (3/3) Kumpi parempi? Yksinkertaisuus vs. Tarkkuus Miten verrataan?

Mallin koko Määritellään jokaiselle muuttujalle A, jonka vanhemmat ovat pa(A), taulukon P(A|pa(A)) koko Sp(A):na. Tällöin mallin M koko määritellään T1 T2 T3 T4 T5 Msimp T1 Size(Msimp)=2+4+4+4+4=18 Size(Mmax)=2+4+8+16+32=62 T2 T3 Mmax T4 T5

Mallin optimointi (1/2) Määritetään hyväksymismitta (acceptance measure) • Valitaan käytettävä etäisyysmitta, hyväksyttävän etäisyyden yläraja ja vakio k. • Minimoidaan Acc

T1 T2 T3 T4 T5 Mallin optimointi (2/2) Optimi malli: Size(Mmin)=2+4+4+2+8=20 Acc(P,Mmin)=20,14 Mmin k = 10 000 jamax(dist)=0,0005 T1 P(Word|Mmax)=P(Word) distQ = 0 Acc = Size(Mmax)=62 T2 T3 Size(Msimp)= 18 Acc(P,Msimp)=21,37 T1 T2 T3 T4 T5 T4 T5 Mmax

Batch learning käytännössä (1/4) • Jos muutujia paljon, ei ole mahdollista aloittaa Mmax:sta • Aloitetaan hallittavasta mallista ja muutetaan vaiheittain lisämäällä, poistamalla ja uudelleen suuntaamalla linkkejä • huomioidaan kausaalisuus • asiantuntijalausunnot Riski- tekijä Hoito Tauti Oire

Batch learning käytännössä (2/4) Suuri datavarasto • vaikea laskea Eukliidinen etäisyys • käytetään logaritmista pisteytystä SM(c)=-log2PM(c) SM(C) - SC(C) = n distK(PM,PC) jos tapaukset riippumattomia • SM(C)=-log2PM(C), PM(C)=P(C|M)

Batch learning käytännössä (3/4) • tietokannan jakauma ei välttämättä ole ’todellinen’ jakauma, vaan useinmiten otos siitä • Merkitän tätä tietokantaa C:llä • maksimoidaan

Batch learning käytännössä (4/4) Muita yleisiä ongelmia • Arvoja puuttuu • Useita tietokantoja lomittaisista sarjoista muuttujia, joilla eri määrät tapauksia • C voi olla erittäin suuri

Yhteenveto • Jakaumien vertailu etäisyysmitoilla • Batch learning • Muodostetaan yksinkertaisempi malli (Bayesverkko) tutkittavasta systeemistä, siten että informaatiota menetetään mahdollisimman vähän

Kotitehtävä • Määritä seuraavien mallien (Bayesverkkojen) koot, kun Bi:t ovat kaksi tilaisia ja Ti:t kolmi tilaisia muuttujia • Heitettäessä noppaa 100 kertaa saatiin seuraavat frekvenssit (15, 16, 22, 14, 21, 14). Laske saadun jakauman Eukliidinen etäisyys virheettömän nopan todellisesta jakaumasta. Vertaa saamaasi arvoa BL osiossa esitetyn yksinkertaisimman mallin (Msimp) etäisyyteen 0,000337. B1 B2 B1 T1 B2 T3 B5 M1: M2: B3 T2 B4

Etäisyysmitat ja Batch learning