1 / 24

Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása. Papp Gyula PPKE-ITK. Tartalom. Bevezetés Korpuszalapú jelentés-reprezentáció gráfokkal vektorokkal Felügyelet nélküli jelentés-egyértelműsítés Gráf- és vektoralapú módszerek összehasonlítása Eredmények. Bevezetés.

Download Presentation

Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása Papp Gyula PPKE-ITK

  2. Tartalom • Bevezetés • Korpuszalapú jelentés-reprezentáció • gráfokkal • vektorokkal • Felügyelet nélküli jelentés-egyértelműsítés • Gráf- és vektoralapú módszerek összehasonlítása • Eredmények

  3. Bevezetés • Hosszútávú cél:nagyobb szövegegységek jelentés-reprezentációja korpuszbeli szó-együttelőfordulások alapján • Mire lehet hasznos a korpusz? • „You shall know a wordby the company it keeps”(Firth, 1957) • „Meanings of words are largely determined by their distributional patterns” (Harris, 1968) • „Words that occur in similar contexts will have similar meanings” (Miller és Charles, 1991) • A szavak jellemző együtt-előfordulásai meghatározzák a szövegegység jelentését

  4. Gráfalapú jelentés-reprezentáció svájci frank THM 3 7 • „Drágulnak a részletek, de még mindig jobban megéri a devizás, mint a forintalapú hitel.” 2 törlesztés 3 3 2 forintalapú forint 4 5 4 7 3 részlet 6 2 hitel 3 4 árfolyam 4 kamat 7 7 euro deviza

  5. Vektoralapú jelentés-reprezentáció • „Drágulnak a részletek, de még mindig jobban megéri a devizás, mint a forintalapú hitel.”

  6. Mitől jó a reprezentáció? • Mitől jó a reprezentáció? • azonos jelentés – azonos ábrázolás • hasonló jelentés – hasonló ábrázolás • eltérő jelentés – eltérő ábrázolás • Az előző reprezentációk jók voltak??? • az ábrázolások összehasonlíthatóak • probléma: a jelentéseket nem tudjuk összehasonlítani!

  7. ? „Drágulnak a részletek, de még mindig jobban megéri a devizás, mint a forintalapú hitel.” „A forint sokat vesztett értékéből az euróhoz képest.” svájci frank svájci frank THM 3 7 7 2 törlesztés 3 3 2 forintalapú 5 forint forint 4 5 érték 4 7 3 6 2 7 részlet hitel 7 3 4 3 8 árfolyam árfolyam 4 kamat 7 9 7 4 euro euro deviza deviza

  8. levél1 levél1 levél2 „A postás kézbesíti a levelet.” „A levél feladója rossz címet írt rá a borítékra.” „A növények levelei zöldek.” postás postás növény levél címzett címzett levél levél fa posta posta boríték kézbesít gyökér virág feladó zöld

  9. Felügyelet nélküli JEÉ • Van sok, a célszót tartalmazó környezetünk, de ezek nincsenek jelentésekkel címkézve • Milyen információhoz juthatunk csupán a környezetet használva? • Hipotézis: egy szó adott jelentéssel hasonló szavakkal fordul elő egy környezetben • pl. a levél szó: • posta, feladó, postás, címzett, kézbesít, … • fa, növény, virág, ősz, hullik, … • a célszó környezetét vizsgálva sok esetben elkülöníthetők a különböző „jelentések” (használati esetek) • az elkülönített használati esetekhez hozzárendelhetők a megfelelő jelentések • a posta, … sorhoz a levél1 • a fa, … sorhoz a levél2

  10. Gráfalapú JEÉ 3 zöld posta 9 3 4 5 6 7 3 növény fa feladó kézbesít 8 4 levél2 levél1 4 4 6 növény postás fotoszintézis postás címzett 0,1 0,3 0,1 0,1 fotoszintézis fa kézbesít posta 0,8 0,2 0,2 zöld feladó címzett

  11. Alkalmazás növény postás 0,1 0,3 0,1 0,1 fotoszintézis fa kézbesít posta 0,8 0,2 0,2 zöld feladó címzett < „A zöld autóból kiszálló postás adta át a levelet.” 1- 0,1 - 0,8 = 0,1 pont 1 pont

  12. Vektoralapú JEÉ • A célszóval jellemzően együtt előforduló jegyek meghatározása • statisztikai módszerrel (ami a véletlennél gyakrabban fordul elő a célszóval azonos környezetben) • a jegyek lehetnek szavak vagy együtt előforduló szópárok • például a levél szónál a jegyek lehetnek: • fa, posta, feladó, növény, postás, címzett, virág, kézbesít, ősz, hullik

  13. Vektoralapú JEÉ • Az egyes környezetekre vektorok készítése a bennük szereplő jegyek alapján „A postás viszi a levelet a borítékon feltüntetett címre.” „Ősszel a fákról lehullanak a levelek.” …

  14. Vektoralapú JEÉ • Hasonló vektorok csoportosítása • klaszterezési algoritmus segítségével • csoportok „középpontjainak” meghatározása

  15. Vektoralapú JEÉ • Középpontokhoz jelentések hozzárendelése levél1 levél2

  16. Összehasonlítás Vektoralapú módszerek Gráfalapú módszerek • A korpuszt egészében csak a jegyek kiválasztására használják • Bekezdésenként ábrázolják a korpuszt, majd ezeket csoportosítják • Hatékony futási idő • Jobb eredmények • Az egész korpuszra építenek kapcsolat-rendszert • Az így előállt gráfot bontják csoportokra • Hosszabb futási idő • Kevésbé jó eredmények

  17. Kísérlet • 20 angol főnév – 20 korpusz • Korpuszok bekezdései: • tartalmazzák az aktuális célszót • BNC-ből címkézetlenek (3000db/szó) • Senseval-2 adatokból címkézettek (80-200db/szó) • Gráfalapú és vektoralapú algoritmusok

  18. Eredmények

  19. Köszönöm a figyelmet!

  20. Webes keresés – találat? A postás kézbesíti a levelet. ……………… A levél (fillum) a növények hajtás-tengelyének…..….A növények levelei……………..levél……………….……levél………………levelek…… …..………. Az elsőbbségi levél olyan külön jelzéssel ellátott postai küldemény..……….címzett…………….boríték……….…bélyeg…..…..

  21. Gépi fordítás „A postás kézbesíti a leveleket.” ? „The postman delivers the letters.” vagy „The postman delivers the leaves.”

  22. Vektoralapú JEÉ • Hasonló vektorok csoportosítása • klaszterezési algoritmus segítségével • csoportok „középpontjainak” meghatározása

  23. Mérhetőség • Hogyan tudnánk mérhetővé tenni a reprezentáció minőségét? • alkalmazzuk a reprezentációkat többjelentésű szavak jelentéseinek az elkülönítésére • kiindulás: célszót tartalmazó bekezdések • a kiindulási bekezdésekre elkészítjük a reprezentációt • a hasonló reprezentációkat csoportokba szedjük • a csoportokat megfeleltetjük a célszó egyes jelentéseinek • mérési eredmény: milyen arányban sikerült eltalálni a tényleges jelentést (ehhez a célszó jelentéseivel címkézett környezetekre is szükség van) • Jelentés-egyértelműsítés (JEÉ)

  24. Alkalmazások • Gépi fordítás • Webes keresés

More Related