1 / 31

Gépi tanulás

Gépi tanulás. 2007. szeptember 26. Mesterséges Intelligencia. „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával foglalkozik” (Luger 1993)

Download Presentation

Gépi tanulás

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gépi tanulás 2007. szeptember 26.

  2. Mesterséges Intelligencia • „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával foglalkozik” (Luger 1993) • Annak tanulmányozása, hogy hogyan lehet a számítógéppel olyan dolgokat művelni amiben pillanatnyilag az emberek a jobbak” (Rich 1991)

  3. Gépi tanulás Algoritmusok vs. Mest. Int. Gépi tanulás = Statisztikai tanulás Ma, a gyakorlati problémák megoldására hatékony Mest. Int. a gépi tanulás Ez intelligencia?

  4. Osztályozási feladat Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz), találjuk meg a szabályosságokat, mintázatokat ami alapján korábban nem látott egyedeket be tudjuk az adott osztályokba.

  5. Gépi tanulás Legfontosabb részfeladatok: • egyed-jellemzők megtalálása • megfelelő tanuló módszer kiválasztása, hangolása • kiértékelés és visszacsatolás

  6. Jellemzők Cél minden olyan jellemző összegyűjtése ami segítheti a predikciót (manuális) Tartsuk szem előtt a problémát! Típusai: • diszkrét: értékek véges halmaza, nincs rendezés • folytonos

  7. Tanuló algoritmus

  8. Kiértékelés és visszacsatolás Kiértékelési metrika: a jelölés jóságának (gold standard címkékhez viszonyított) leképezése egyetlen értékre. Feladatonként más és más Visszacsatolás: elemzzük a hibáinkat! Lehetőségek: új jellemzők felvétele, paraméterek hangolása, stb.

  9. Adatbázisok, versenyek • Tanító adatbázis • Fejlesztői adatbázis • Kiértékelési adatbázis • Versenyeken: • tanító és fejlesztői adatbázis: 1-2 hónap • Kiértékelési adatbázis: 1-2 nap

  10. UFO példa • egyedek: emberek • osztályok: férfi/nő • adott egy tanuló adatbázis és ismeretlen elemek egy halmaza (teszt) • feladat: tesztegyedek osztályba sorolása • jellemzők: haj hossza, derékbőség … • tanuló algoritmus: C4.5 döntési fa • Kiértékelés: hányszor találta el • visszacsatolás…

  11. A tanuló adatbázis mérete

  12. Általánosítás és túltanulás

  13. Jelentés-egyértelműsítés • Word sense disambiguation:Egy szóalak jelentésének kiválasztása, egy előre megadott (lehetséges jelentés-) halmazból • A lehetséges jelentések ált. egy szótárból, tezauruszból • Osztályozási modellek alkalmazhatók (előre egyértelműsített példák szükségesek) • Word sense discrimination: Az adott szóalak különböző használati eseteit (~jelentés) elkülöníteni, anélkül, hogy a lehetséges jelentéseket kívülről megadnánk /és így címkézett példáink sem lehetnek/ • Felügyelet nélküli statisztikai modellek

  14. A többértelműség a nyelvben • Az agyunk optimalizál • Nagyobb többértelműség  kisebb lexikon  kevesebb memória  bonyolultabb feldolgozás • Kisebb többértelműség nagyobb lexikon  lassabb tanulás könnyebb értelmezés • A nyelvben gyakori a többértelműség • Az embernek mégis elvétve okoz gondot a fogadott jelsorozat értelmezése • A nyelv hatékony az ember számára • A számítógép száméra szinte teljesen kezelhetetlen a többértelműség

  15. WSD • Típusai • All wordsA cél az összes szóalak egyértelműsítése, folyó szövegben • Lexical sampleA cél bizonyos szóalakok egyértelműsítése, minden szóalakra önálló modell

  16. All words Nagyon kevés erőforrás áll rendelkezésre Olyan mintákat kell tanulni, melyek függetlenek az adott szóalaktól Nincs kielégítő megoldás még Gyakorlatban ez lenne jól használható Lexical sample Több erőforrás van, és olcsóbban előállítható 1-1 új szóalakra Az adott szóra jellemző mintákat tanulhatunk, könnyebb feladat Tűrhető (nem jó!) megoldások vannak Gyakorlatban ritkán használható Pro és Kontra

  17. Lexical Sample • Hipotézis: egy szóalak, adott jelentésben hasonló szavakkal fordul elő együttesen  használjuk a kontextust az egyértelműsítésre (nem nagy ötlet, mi mást tudnánk használni? ) • Vegyünk egy N széles ablakot a szóelőfordulás körül • Írjuk le a szó környezetében található (remélhetőleg hasznos) információt • Tipikus jellemzők: szavak, lemmák, szófaji kód, gyakoriságok, … „An electric guitar and bass player stand off to one side, not really part of the scene, just as a sort of nod to gringo expectations perhaps.” • Surrounding context (local features) • [ (guitar, NN1), (and, CJC), (player, NN1), (stand, VVB) ] • Frequent co-occurring words (topical features) • [fishing, big, sound, player, fly, rod, pound, double, runs, playing, guitar, band] • [0,0,0,1,0,0,0,0,0,0,1,0] • Other features: • [followed by "player", contains "show" in the sentence,…] • [yes, no, … ]

  18. Lexical sample • Az előző dián látottak szerint építsünk egy tanuló modellt (tetszőleges osztályozó használható) • Eredmények: Senseval-3 legjobb: 72.9%Baseline (leggyakoribb j.): 55.2% • Emberi egyetértési ráta: ~67%

  19. Lexical sample feladat tanulságai • Ilyen megközelítésben építhetők jó rendszerek (jelentősen túllépték a basline-t) • A feladat nehéz, ha nem a megértés, hanem a döntés a feladat (alacsony egyetértés az emberi bejelölők közt. • Túl barokkos jelentésmegkülönböztetés (még embernek is nehéz elhatárolni a jelentéseket) www.senseval.org http://nlp.cs.swarthmore.edu/semeval/

  20. All words • Senseval-3 –on legsikeresebb modellek minimális felügyelettel tanított osztályozók • Senselearner Senseval-3 all word task: 64.6%Leggyakoribb jelentés: 60.9% • Ez a feladat még nem ért el arra a szintre, hogy alkalmazásokba építve javítson azok működésén (nyitott terület)

  21. Word Sense Discrimination • Nincs előre definiált jelentéshalmaz • HyperLex • Szó szövegkörnyezeteire együttelőfordulási (co-occurence) gráfot épít • Egy szó körül nem véletlenszerűen jelennek meg (vagy nem) együtt a szavak • Naná, ha értelmes a szöveg…  • Ezek a gráfok speciális szerkezetet mutatnak • Ezen a gráfon keressünk kiemelten fontos csomópontokat • Ezek tükrözni fogják az adott szóalak különböző használati eseteit • Használjuk fel őket (IR-ben jó így ahogy van; WSD-hez, képezzük rá ezeket a jelentéshalmazra)

  22. HyperLex • Nagyon jó eredmények IR-ben, a nemreleváns lapok kidobálására • Jó eredmények Lexical Sample WSD-re /főnevekre a jelenlegi legjobb felügyelet nélküli modell/ • Senseval-3, főnevek: 64.6%Leggyakoribb jelentés: 54.5%

  23. WSD magyarra • A WordNet építése mellett elkészült Szegeden az első (Lexical Sample) tanítókorpusz magyarra • melléknév: anyagi, élő, erős, képes, pontos, szociális • főnév: civil, család, élet, ház, helyzet, intézmény, iskola, kép, képviselő, kormány, nap, oldal, ország, perc, pont, program, század, személy, szervezet, tanár, világ, víz • ige: függ, hat, jár, kap, kerül, marad, rendelkezik, szerepel, tart, tartozik, tud, válik

  24. Magyar WSD statisztikák

  25. Magyar WSD statisztikák

  26. Projektmunka • Tanító adatbázis: • 33 szóalak • ~ 5 ezer HVG cikk (pontosan 1 célszó) • automatikusan szótövesített, szófajilag egyértelműsített elemzés adott • Kiértékelés1: • Ugyanezen szóalakokra ~ 2 ezer HVG cikk • Kiértékelés2: • 6 újabb szóalak Végeredmény: a kettő számtani átlaga

  27. Leggyakoribb jelentés baseline.cpp >evaluation.exe cimke_test predicated Correctly classified: 1667 Incorrectly classified: 517 Accuracy: 0.763278 Ezt le kell tudni győzni! Kiértékelés: evaluation.exe (pontosság)

  28. Projektmunka menetrend • Tanító adatbázis, evaluation.exe: mostantól • Kiértékelő1 adatbázis kiadása: okt. 24. • Kiértékelő1 beküldési határidő: nov. 6. • Kiértékelő2 adatbázis kiadása: nov. 28. • Kiértékelő2 beküldési határidő: dec. 2. • Projektmunkák prezentálása (eredményhirdetés): dec. 4. • Szóbeli vizsga: dec. 11.

  29. Projektmunka tippek • Automatikusan keressünk „indikáló” szavakat • Milyen környezet lehet jó? • egész cikk / bekezdés / mondat • Szótövek, szófaji kódok segíthetnek • Jó stratégia lehet: • Ha biztosan tudunk dönteni tegyük meg, • egyébként használjuk a leggyakoribb jelentést

More Related