Tommi Kauppinen ja Tuukka Sarvi

Oppiminen Bayes-verkoissa IID. Heckerman. A Tutorial on Learning with Bayesian Networks. In Learning in Graphical Models, M. Jordan, ed.. MIT Press, Cambridge, MA, 1999.NIPS 2001 Tutorial: Learning Bayesian Networks From Data. Nir Friedman and Daphne Koller Tommi Kauppinen ja Tuukka Sarvi

Esitelmän sisältö • Rakenteen ja parametrien oppiminen • Pisteytysmenetelmät • Täysi Bayes • Epätäydellinen data • Case: College plans • Yhteenveto

Rakenteen ja parametrien oppiminen • Tilanne: meillä on datajoukko ,josta pitää määrittää sekä Bayes-verkon rakenne että parametrit • Määritettävä kaaret ja todennäköisyydet • Määritellään satunnaismuuttuja S, jonka tilat vastaavat eri rakennevaihtoehtoja • Jo pienellä muuttujamäärällä mahdollisia verkkoja suuri määrä (ylieksponentiaalinen) • Eri lähestymistapoja: mallien pisteytys ja täysi Bayes

Mallien pistetys • Määritetään pisteytysfunktio, joka kertoo kuinka hyvin malli vastaa dataa • Etsitään suurimman pistearvon tuottavaa rakennetta • Suurin osa Bayes-verkkojen oppimista käsittelevästä kirjallisuudesta keskittyy mallien pisteytykseen ja valintaan • Monia pisteytystapoja, esim. likelihood score, cross-validation score • Parhaat pisteet saava malli etsitään laskemalla kaikki vaihtoehdot läpi tai käyttämällä jotain etsintäalgorimia rakennevaihtoehtojen S joukossa

Mallien pisteytys: selventävä kuva

Likelihood score • Logaritmi todennäköisyydestä, että malli tuottaa annetun datan D: • Todennäköisyys saadaan kaavasta: • on datasta laskettu parametrijakauma

Cross-validation score • Opetetaan malli (päivitetään parametrit) datalla V, jossa on jätetty pois yksi havainto: • Lasketaan tn. poisjätetylle havainnolle • mitä suurempi tn. saadaan sitä suuremmat pisteet • Lasketaan eri havainnot poisjättämällä saadut pisteet yhteen:

Esim. kaksi kolikkoa • Kaksi kolikkoa X ja Y sekä data seitsemästä heitosta • Kaksi mallia S1 ja S2 • Lasketaan likelihood score molemmille

Esim. kaksi kolikkoa: malli S1 • Halutaan laskea: • Bayesin kaavalla: • Sijoitetaan, jolloin saadaan: • on parametrien priori-jakauma mallissa S1 • p(D|S1) on datan priori-todennäköisyys mallissa S1

Esim. kaksi kolikkoa: malli S1 • Datasta saadaan: • Priori-tn. oletetaan tasajakautuneeksi: • Datan priori-tn. integroimalla: • Nyt saadaan alkup. lauseke:

Esim. kaksi kolikkoa • S1:lle saadaan likelihood score: • Vastaavasti lasketaan S2:n likelihood score: • S2:n pistemäärä suurempi => S2 on parempi malli datan valossa • Tämä on järkevää kun tarkastellaan dataa

Täysi Bayes • Lasketaan datan perusteella posteriori-todennäköisyydet p(S|D) ja jokaiselle mallille • p(S|D) Bayesin kaavasta: • Käytetään saatuja posteriori-todennäköisyyksiä laskettaessa haluttuja odotusarvoja • Esim. lasketaan datajoukkoa D seuraavan havainnon jakauma:

Täysi Bayes: selventävä kuva

Täysi Bayes vs. pisteytys • Täysi Bayes –menetelmässä säilytetään mukana kaikki mallit • Pistetysmenetelmissä valitaan paras malli • Täysi Bayes antaa kattavampia ennusteita • kaikki mahdollisuudet säilytetään mukana • Täysi Bayes laskennallisesti raskasta • mahdollisia malleja suuri määrä • Käytännössä parempi käyttää pisteytysmenetelmää

Epätäydellinen data • Datan epätäydellisyydessä voidaan erottaa kaksi eri tapausta • Puuttuvat arvot datassa • Puuttuvat tai piilotetut muuttujat (hidden variables)

Puuttuvat arvot datajoukossa ja EM (expectation maximization) • EM on metodi, jossa puuttuvat arvot datassa täydennetään olemassa olevan Bayes-verkon avulla • Saatuja arvoja käytetään kuin mitattuja

Data: oletetaan tunnetuksi: Tästä saadaan arviot eri yhdistelmille X, Y. N(X,Y): Esim. EM (expectation maximization):

Puuttuvat muuttujat (hidden variables) • Ei suoraa metodia löytää puuttuvia solmuja • Erilaisia heuristisia metodeja olemassa • puretaan toisistaan riippuvien muuttujien osaverkko kulkemaan yhteisen muuttujan kautta • Testataan verkkoa epäilyttävissä kohtaa lisäämällä mahdollisia puuttuvia muuttujia ja vertailemalla saatujen verkkojen ilmenemistodennäköisyyksiä alkuperäiseen

Puuttuvat muuttujat: selventävä kuva • (a) Datan perusteella saatu verkko (mitatut muuttujat) • (b) Ehdotus puuttuvien muuttujien lisäämiseksi

Case: College plans • Muuttujat: sex (SEX): male, female; socioeconomic status (SES): low, lower middle, upper middle, high; intelligence quotient (IQ): low, lower middle, upper middle, high; parental encouragement (PE): low, high; college plans (CP): yes, no • Data: tiedot 10318 Wisconsin high school oppilaista • Tarkoitus: saada tietoa muuttujien syy-seuraus-suhteista • Lähteet: data Sewell & Shah (1968) ja analyysi D. Heckerman (1999)

Case: College plans • Kuvassa kaksi todennäköisintä rakennetta • Epäilyttävää: SES vaikuttaa suoraan IQ:iin

Case: College plans • Lisättiin puuttuva muuttuja H selittämään muuttujia IQ ja SES • Malli 2*1010 kertaa todennäköisempi kuin paras malli ilman muuttujaa H • Muuttuja H vastaa ”vanhempien laatua”

Yhteenveto: oppivat Bayes-verkot • Auttaa mallin rakentamisessa • Opitaan kahta asiaa: parametrit (todennäköisyydet) ja rakenne (kaaret) • Käytännössä tärkein menetelmä: parhaan rakenteen ja parametrien etsiminen pisteytysmenetelmillä • Epätäydellisen datan kaksi tapausta: puuttuvat arvot ja puuttuvat muuttujat • Suuri potentiaali, monia toimivia sovelluksia

Kotitehtävä 28 • (a) Todista, että N muuttujan tapauksessa mahdollisten verkkojen määrä on suurempi kuin N! (ylieksponentiaalinen). (3p) • (b) Keksi ongelma, johon voisit käyttää oppivia Bayes-verkkoja. Listaa tutkittavat muuttujat ja kerro mistä saat dataa mallisi opettamiseksi. (3p)

Tommi Kauppinen ja Tuukka Sarvi