1 / 31

Ristiinvalidointi ja bootstrap-menetelmä 20.10.2010

Ristiinvalidointi ja bootstrap-menetelmä 20.10.2010. Ristiinvalidointi. Estimoi suoraan odotusarvoista ennustevirhettä Valitaan mallirakenne jolle estimoitu ennustevirhe pienin Ristiinvalidointi yksinkertaista, laajasti käytössä Ei estimoi hyvin yleistysvirhettä

amal
Download Presentation

Ristiinvalidointi ja bootstrap-menetelmä 20.10.2010

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ristiinvalidointi ja bootstrap-menetelmä20.10.2010

  2. Ristiinvalidointi • Estimoi suoraan odotusarvoista ennustevirhettä • Valitaan mallirakenne jolle estimoitu ennustevirhe pienin • Ristiinvalidointi yksinkertaista, laajasti käytössä • Ei estimoi hyvin yleistysvirhettä • Lisää tästä kappaleessa 7.12, ei kuulu esitykseen

  3. K-kertainen ristiinvalidointi 1 2 3 4 K . . . opetus opetus opetus validointi opetus opetusainesto Jaetaan N havainnon opetusaineisto K yhtä suureen osaan Sovitetaan malli käyttäen osia 1, ..., k-1, k+1, ..., K Estimoidaan odotusarvoinen ennustevirhe käyttäen osaa k Toistetaan kaikilla

  4. Odotusarvoisen ennustevirheen estimoiminen ristiinvalidoinnilla • Indeksointifunktio • Kertoo mihin osaan havainto i kuuluu • malli joka sovitettu opetusaineistolla, josta osa k poistettu • mallin parametrivektori • Odotusarvoisen ennustevirheen ristiinvalidointiestimaatti

  5. Ristiinvalidoinnin kertaluvun valitseminen • ”Leave One Out” (LOO) – ristiinvalidointi: K=N • Estimoi harhattomasti odotusarvoista ennustevirhettä • Opetusjoukot samankaltaisia ð varianssi korkea • Tyypillisesti K=5 tai K=10 • Odotusarvoisen ennustevirheen estimaatti voi olla harhainen • Opetusjoukot erilaisia ð varianssi pienempi • Mitä korkeampi K, sitä enemmän aikaa käytetään laskentaan

  6. Ristiinvalidointi ja mallin oppiminen 1/2 • Kuvassa opetetun mallin odotusarvoinen ennustevirhe • Opetusaineiston koko N = 200 • Jos ristiinvalidoinnissa K=5, opetukseen käytetään 160 havaintoa • Lähes yhtä hyvä estimaatti kuin käytettäessä N kpl havaintoja

  7. Ristiinvalidointi ja mallin oppiminen 2/2 • Nyt koko opetusaineiston koko N = 50 • Jos ristiinvalidoinnissa K=5, opetukseen käytetään 40 havaintoa • Odotusarvoisen ennustevirheen estimaatti ylöspäin harhainen

  8. Ristiinvalidointivirhe lineaarisessa regressiossa • Kirjan kappaleen 7.3.1 esimerkki • Luokittelu tehty lineaarisella regressiolla jossa p parasta selittäjää • Ristiinvalidoinnissa K= 10 • Valitaan p = 9 , koska p = 10 ei eroa tilastollisesti merkitsevästi ristiinvalidointivirheja sen luottamusväli ennustevirhe

  9. LOO-ristiinvalidoinnin approksimointi • Approksimoidaan LOO-ristiinvalidointia, kun • Lineaarinen malli: • Neliöllinen virhefunktio: • Monille lineaarisille sovitusmenetelmille • on :n i:s diagonaalielementti

  10. Yleistetyn ristiinvalidointi • Yleistetty ristiinvalidointiestimaatti on • trace(S) on efektiivinen parametrien lukumäär • Etuna laskennallinen helppous • trace(S) on joskus helpompi laskea kuin alkiot • Ristiinvalidointi ei aina anna riittävän sileitä malleja • Yleistetty ristiinvalidointi auttaa • Yhtymäkohtia Akaiken informaatiokriteerin kanssa

  11. Ristiinvalidoinnin soveltaminen VÄÄRIN VÄÄRIN • Ristiinvalidointia helppo soveltaa väärin • Tarkastellaan luokittelutilannetta, jossa • Kaksi luokkaa, p selittäjää, N havaintoa luokista • Mahdollinen lähestymistapa: • Valitaan selittäjät, jotka korreloivat eniten selitettävien luokkamuuttujien kanssa • Muodostetaan luokittelija 1. vaiheessa valittujien muuttujien perusteella • Käytetään ristiinvalidointia luokittelijan parametrien valitsemiseen ja odotusarvoisen ennustevirheen estimoimiseen

  12. Ristiinvalidoinnin väärinkäyttö Nyt luokittelussa kaksi luokkaa, N = 50, p=5000 normaalijakautunutta selittäjää Selittäjät riippumattomia luokkamuuttujista ð Valitaan 1. vaiheessa 100 eniten luokkamuuttujien kanssa korreloitunutta selittäjää Muodostetaan lähimmän naapurin luokittelija Estimoidaan odotusarvoinen ennustevirhe ristiinvalidoinnilla, K=5 Toistettiin 50 kertaa, keskimäärin CV = 0.03 ?

  13. Ristiinvalidoinnissa tehty virhe • Vaiheessa 1 valittu 100 luokkamuuttujien kanssa eniten korreloivaa selittäjää • Havaintojen jättäminen pois selittäjien valinnan jälkeen ei vastaa riippumattoman validointiaineiston käyttämistä!

  14. Ristiinvalidoinnin oikea käyttö • Jaetaan aineisto K yhtä suureen osaan sattumanvaraisesti • Jokaiselle osalle k = 1, 2, ... , K • Valitaan selittäjät, jotka korreloivat eniten luokkamuuttujien kanssa käyttäen aineistoa josta poistettu osa k • Käyttäen näitä selittäjiä, muodosta luokittelija käyttäen opetusaineistoa josta poistettu osa k • Käytä luokittelijaa ennustamaan opetusaineiston osan k luokkamuuttujien arvot • Odotusarvoisen ennustevirheen estimaatti vaiheen 2 c) tulosten perusteella

  15. Ristiinvalidoinnin soveltaminen päätöspuuhun luokkaA luokka B selittäjän arvo haara havainto luokasta A • N = 20 havaintoa 2 luokasta, p = 500 selittäjää • Luokkamuuttujat riippumattomia selittäjistäð • Luokitellaan yhden selittäjän päätöspuulla • Jaetaan aineisto kahteen luokkaan yhden selittäjän arvon perusteella • Parametrina haaran sijainti

  16. Tutkittava väite ristiinvalidoinnista VÄÄRIN VÄÄRIN ”Koko aineistoon sovitettaessa löydetään varmasti hyvin toimiva luokittelija. Jos käytetään 5-kertaista ristiinvalidointia, tämä sama luokittelija toimii hyvin myös mille tahansa 4/5 ja 1/5 aineistosta. Tämän takia ristiinvalidoinnin avulla estimoitu odotusarvoinen ennustevirhe on liian pieni.”

  17. Väitteen tutkiminen simulaatiolla Err = 0.5 ! • Käytetty 5-kertaista ristiinvalidointia, N = 20 • Vasemmalla opetusvirhe eri selittäjille, opetusaineistona 16 havaintoa • Oikealla y-akselilla luokitteluvirhe, validointiaineistona 4 havaintoa

  18. Väitteessä tehty päättelyvirhe • Malli muodostettava kokonaan uudelleen jokaiselle ositukselle • Vasen kuva: • 20 havainnolla luokittelija olisi täydellinen, 16 havainnolla tehdään kaksi virhettä • Oikea kuva: • Väärin luokiteltujen pisteiden osuus, luokittelija muodostettu 50 kertaa

  19. Bootstrap-menetelmät Tavoitteena estimoida yleistysvirhe Käytännössä estimoi hyvin vain odotusarvoisen ennustevirheen Opetusjoukko jossa Poimitaan takaisinpanolla N näytteen opetusjoukkoja alkuperäisestä datasta B kertaa: Sovitetaan malli jokaiseen bootstrap-opetusjoukkoon Lasketaan jokaisen mallin avulla estimaatti

  20. Bootstrap: periaatepiirros Bootstrap –replikaatiot Bootstrap –opetusjoukot Alkuperäinen opetusjoukko

  21. Bootsrap: toinen periaatepiirros Useimmissa versioissa Paroni von Münchausen vetää itsensä suosta palmikostaan, ei saappaannyöreistään

  22. Bootstrap-estimaatti Sovitettujen mallien perusteella voidaan laskea esim. bootsrap-estimaatin varianssi Voidaan pitää varianssin Monte-Carlo estimaattina kun näytteistetään opetusaineiston empiirisestä jakaumasta

  23. Bootstrap-estimaatti odotusarvoiselle ennustevirheelle • Sovitetaan bootsrap-aineistoon, validoidaan alkuperäisellä • Huono estimaatti: bootstrap-aineistossa ja validointiaineistossa paljon samoja havaintoja • Tuloksena saatu estimaatti liian pieni

  24. Bootstrap & lähimmän naapurin luokittelija • Kaksi luokkaa, molemmissa luokissa yhtä monta havaintoa • Selittäjät ja luokkamuuttujat riippumattomia ð Err = 0.5 • Havainto i ei vaikuta ellei mukana bootstrap-aineistossa b • Saadaan • Liian pieni estimaatti odotusarvoiselle ennustevirheelle!

  25. LOO Bootstrap-estimaattoria • Estimaattia voidaan parantaa matkimalla LOO-ristiinvalidointia • Merkitään niiden bootstrap-aineistojen indeksien joukkoa jossa havainto i ei mukana • Bootstrap-näytteessä keskimäärin havaintoa • Käyttäytyy kuten ristiinvalidointi jossa K=2 • Samat ongelmat liittyen opetusjoukon kokoon (kalvot 6 ja 7)

  26. ”.632”-estimaattori ”.632”-estimaattori korjaa odotusarvoisen ennustevirheen - estimaattoria kohti opetusvirhettä Johtaminen monimutkaista Toimii huonosti jos luokittelija ylisovittuu opetusaineistoon eli

  27. ”.632+” – estimaattorin johtaminen • Halutaan korjata ylisovittumisesta aiheutuvia ongelmia • Määritellään informaatioton virhesuure • Virheiden osuus jos selittävät muuttujat ja selitettävät luokkamuuttujat riippumattomia • Estimaattori

  28. ”.632+”-estimaattori • Määritellään suhteellinen ylisovittuminen • 0 jos ei lainkaan ylisovittumista ( ) • 1 jos • Määritellään .632+ - estimaattori • Kompromissi: lopputulos jotainopetusvirheen ja LOO bootstrap-estimaatin väliltä • Johto monimutkainen, ei käsitelty kirjassa

  29. Bootsrap- ja ristiinvalidointi- estimaattoreiden vertailu • Kirjan esimerkeissä ristiinvalidoinnin ja bootstrap-menetelmien käyttö johti samankaltaisiin tuloksiin • Etuna helppo toteutus • Haittana laskennallinen vaativuus • Akaiken informaatiokriteerillä samankaltaisia tuloksia • Parempi arvio yleistysvirheestä kuin Akaiken informaatiokriteerillä tai Bayesiläisellä informaatiokriteerillä

  30. Kiitos! Kysymyksiä?

  31. Kotitehtävä: Kirjan tehtävä 7.10 • Kaksi luokkaa, N havaintoa, p bin. selittäjää jotka riippumattomia luokkamuuttujista • Luokittelijana jokin p selittäjästä • Jos p riittävän suuri, löydetään selittäjä joka luokitteleekoko aineiston täydellisesti • Tällöin myös ristiinvalidoinnin validointiaineisto luokitellaan täydellisesti • Seuraako tästä, että ristiinvalidoinnilla laskettu ennustevirhe on 0, eikä ristiinvalidointia voida käyttää? • Saa simuloida jos haluaa, voi myös päätellä ja perustella • Osittain valmis MATLAB-koodi es14.m

More Related