1 / 19

Etäisyysmitat ja Batch learning

Etäisyysmitat ja Batch learning. Sisältö. Jakaumien etäisyyksien mittaaminen Euklidinen ja Kullback-Leibler mitat Batch learning mallien yksinkertaistaminen mallin koko ja sen optimointi käytännön huomioita. Etäisyysmitat (1/5). Todellinen tai kohde jakauma x

dawn
Download Presentation

Etäisyysmitat ja Batch learning

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Etäisyysmitat ja Batch learning

  2. Sisältö • Jakaumien etäisyyksien mittaaminen • Euklidinen ja Kullback-Leibler mitat • Batch learning • mallien yksinkertaistaminen • mallin koko ja sen optimointi • käytännön huomioita

  3. Etäisyysmitat (1/5) • Todellinen tai kohde jakauma x • esim. virheetön arpa x=(1/6, 1/6, 1/6, 1/6, 1/6, 1/6) • Likimääräiset tai arvio jakaumat yja z • esim. kokeista: y = (0.10, 0.20, 0.20, 0.20, 0.10, 0.20) z = (0.15, 0.15, 0.25, 0.10, 0.10, 0.15) • Kumpi jakaumista y, zlähempänä jakaumaa x?

  4. Merkitään ai:llä i:ttä ulostuloa Neliöllinen sakko määritellään tällöin y:lle Etäisyysmitat (2/5) • Keskimääräinen sakko on tällöin

  5. Etäisyysmitat (3/5) Määritellään jakaumien xja yneliöllinen etäisyys (Euklidinen etäisyys) seuraavasti • x=(1/6, 1/6, 1/6, 1/6, 1/6, 1/6) • y = (0.10, 0.20, 0.20, 0.20, 0.10, 0.20) • z = (0.15, 0.15, 0.25, 0.10, 0.10, 0.15) • distQ(x,y) = 0.0133 • distQ(x,y) = 0.0167

  6. Etäisyysmitat (4/5) • Vastaavasti määritellään logaritminen pisteytyssääntö • Mistä etäisyydeksi (Kullback-Leibler divergenssi) vastaavasti

  7. Euklidinen etäisyys Symmetrinen x,y Kullback-Leibler divergenssi Epäsymmetrinen x,y Etäisyysmitat (5/5) Molemmat aitoja mittoja:

  8. T1 T2 T3 T4 T5 Batch learning - intro (1/3) Esimerkki: viisikirjaimiset sanat kirjaimista ’a’ ja ’b’ aabaa, abbaa, bbbaa… -frekvenssi analyysi

  9. T1 T2 T3 T4 T5 T1 T2 T3 T4 T5 Batch learning – intro (2/3) = P = P* distQ(P,P*)=0,000337

  10. T1 T2 T3 T4 T5 Mmax T1 Msimp T2 T3 vs. T4 T5 Batch learning – intro (3/3) Kumpi parempi? Yksinkertaisuus vs. Tarkkuus Miten verrataan?

  11. Mallin koko Määritellään jokaiselle muuttujalle A, jonka vanhemmat ovat pa(A), taulukon P(A|pa(A)) koko Sp(A):na. Tällöin mallin M koko määritellään T1 T2 T3 T4 T5 Msimp T1 Size(Msimp)=2+4+4+4+4=18 Size(Mmax)=2+4+8+16+32=62 T2 T3 Mmax T4 T5

  12. Mallin optimointi (1/2) Määritetään hyväksymismitta (acceptance measure) • Valitaan käytettävä etäisyysmitta, hyväksyttävän etäisyyden yläraja ja vakio k. • Minimoidaan Acc

  13. T1 T2 T3 T4 T5 Mallin optimointi (2/2) Optimi malli: Size(Mmin)=2+4+4+2+8=20 Acc(P,Mmin)=20,14 Mmin k = 10 000 jamax(dist)=0,0005 T1 P(Word|Mmax)=P(Word) distQ = 0 Acc = Size(Mmax)=62 T2 T3 Size(Msimp)= 18 Acc(P,Msimp)=21,37 T1 T2 T3 T4 T5 T4 T5 Mmax

  14. Batch learning käytännössä (1/4) • Jos muutujia paljon, ei ole mahdollista aloittaa Mmax:sta • Aloitetaan hallittavasta mallista ja muutetaan vaiheittain lisämäällä, poistamalla ja uudelleen suuntaamalla linkkejä • huomioidaan kausaalisuus • asiantuntijalausunnot Riski- tekijä Hoito Tauti Oire

  15. Batch learning käytännössä (2/4) Suuri datavarasto • vaikea laskea Eukliidinen etäisyys • käytetään logaritmista pisteytystä SM(c)=-log2PM(c) SM(C) - SC(C) = n distK(PM,PC) jos tapaukset riippumattomia • SM(C)=-log2PM(C), PM(C)=P(C|M)

  16. Batch learning käytännössä (3/4) • tietokannan jakauma ei välttämättä ole ’todellinen’ jakauma, vaan useinmiten otos siitä • Merkitän tätä tietokantaa C:llä • maksimoidaan

  17. Batch learning käytännössä (4/4) Muita yleisiä ongelmia • Arvoja puuttuu • Useita tietokantoja lomittaisista sarjoista muuttujia, joilla eri määrät tapauksia • C voi olla erittäin suuri

  18. Yhteenveto • Jakaumien vertailu etäisyysmitoilla • Batch learning • Muodostetaan yksinkertaisempi malli (Bayesverkko) tutkittavasta systeemistä, siten että informaatiota menetetään mahdollisimman vähän

  19. Kotitehtävä • Määritä seuraavien mallien (Bayesverkkojen) koot, kun Bi:t ovat kaksi tilaisia ja Ti:t kolmi tilaisia muuttujia • Heitettäessä noppaa 100 kertaa saatiin seuraavat frekvenssit (15, 16, 22, 14, 21, 14). Laske saadun jakauman Eukliidinen etäisyys virheettömän nopan todellisesta jakaumasta. Vertaa saamaasi arvoa BL osiossa esitetyn yksinkertaisimman mallin (Msimp) etäisyyteen 0,000337. B1 B2 B1 T1 B2 T3 B5 M1: M2: B3 T2 B4

More Related