1 / 23

Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk

Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk. Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt. Tartalom. A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok szerepe Szófaji kódolás - MSD kódrendszer Korpuszok és a treebank Szófaji egyértelműsítés

oliana
Download Presentation

Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt

  2. Tartalom • A számítógépes szövegfeldolgozás célja • Nyelvi adatbázisok szerepe • Szófaji kódolás - MSD kódrendszer • Korpuszok és a treebank • Szófaji egyértelműsítés • Főnévi csoportok (NP) felismerés

  3. A Szövegfeldolgozás célja • Nagy mennyiségű elektronikusan tárolt, írott formátumú szöveg feldolgozása (fájlrendszer, adatbázis, web) • Alapvetően információkezelési okokból: keresés, dokumentum visszakeresés, indexelés • Fejlettebb módszereknél a tárolt információ tömör formában történő összegzése: csak a kívánt információ megjelenítése, kivonatolás, szövegbányászat

  4. Nyelvi adatbázisok I. • A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése • A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) • Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) • Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása

  5. Nyelvi adatbázisok II. • Szakszóval korpusznak nevezik az adott célból gyűjtött elektronikus szövegtárakat. • A korpusz adott nyelvi jelenségeket magába foglaló, tervezett elrendezésű, elegendően nagy méretű adattár. • BNC (British National Corpus, http://www.natcorp.ox.ac.uk) • OTA (Oxford Text Archive, http://ota.ahds.ac.uk) • Gutenberg project, http://www.gutenberg.org) • ETCSL (Electronic Text Corpus of Sumerian Literature, http://www-etcsl.orient.ox.ac.uk) • PubMed (http://www.pubmed.gov) • JRC Acquis Corpus (http://langtech.jrc.it/JRC-Acquis.html)

  6. Nyelvi adatbázisok III. Magyar szövegtárak • MTSZ (Magyar Történelmi Szövegtár http://www.nytud.hu/hhc) • DIA (Digitális Irodalmi Akadémia, http://www.pim.hu) • MEK (Magyar Elektronikus Könyvtár, http://mek.oszk.hu) • Szószablya (http://www.szoszablya.hu) • eMagyarország (http://www.magyarorszag.hu) • Parlament (http://www.parlament.hu) • Újságok (http://www.hvg.hu, http://www.nol.hu, http://www.mno.hu, http://www.magyarhirlap.hu)

  7. Nyelvi adatbázisok IV. Számítógépes nyelvészeti adatbázisok • LDC (Linguistic Data Consortium, http://www.ldc.upenn.edu), • ELRA (European LanguageResourcesAssociation, http://www.elra.info), • MNSZ (Magyar Nemzeti Szövegtár, http://www.nytud.hu/mnsz) • Szeged Korpusz (http://www.inf.u-szeged.hu/hlt)

  8. Nyelvi adatbázisok IV. • A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése • A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) • Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) • Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása

  9. Szófaji kódolás • Multext-East EU projekt 1995-97. (http://nl.ijs.si/ME/) • A morfoszintaktikai leírás (MorphoSyntacticDescription = MSD) magyar nyelvre alkalmazható változata • Jellemzői: • Az MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történik • Az értékek egyetlen karakterrel vannak kódolva

  10. MSD kódrendszer Példa: Főnevek (Noun) – N asztalt: MSD=Nc-sa, Gábornak : MSD=Np-sg vagy MSD=Np-sd

  11. MSD kódrendszer Példa: Igék (Verb) – V foglalnának: Vmcp3p

  12. A Szintaxis modellezése • Frázis struktúra (ágrajz)A kötetlen szórend miatt a magyar nyelvben ez nehézséget okoz. A mondatrészek nem minden esetben rendezhetők fába. • Dependencia struktúra (függőségi fa)Minden szónak van egy hierarchiában felette álló őse. Az egész mondat felett áll egy virtuális ROOT (gyökér) csomópont, ami alá tartoznak a mondat szavai. Lazább szerkezet,

  13. Speciális (nyílt) tokenosztályok

  14. Tulajdonnevek • Az alábbi fontosabb csoportok automatikus felismerésére készül egy szabályrendszer a CLaRKhttp://btb.math.bas.bg/clark/index.html (ingyenes) XML alapú korpusz fejlesztő eszközzel. A cél: automatikus tulajdonnév felismerő rendszer készítése. • személynevek (a kereszt és vezetéknevek adatbázisátfelhasználva, az id. ifj. özv. dr. prof. asszonynév (-né), ...képzési formákat • cégnevek (akroním, hosszú név, tevékenység, cégforma [rt. kft. bt.]). • Intézmények (iskola, gimnázium, főiskola, egyetem, intézet, minisztérium, hivatal, ...) • földrajzi nevek (ismert nevek, továbbá az utca, út, dülő, patak, hegy, domb, falu, rét, ösvény, fasor, ... • egyéb tulajdonnevek

  15. Annotáció • Többszintű NP struktúrák jelölése <NP> és </NP> • A tagmondatok jelölése <CP> tagekkel • A nem egyértelmű annotáció jele <XP comment=„”> • Részletes útmutató alapján dolgozó annotátorok • Egy fájlt 2 személy egymástól függetlenül annotált

  16. Az NP (névszói szerkezet) annotálásának fontosabb alapelvei • Egy névszói szerkezet alapvetően egy (ragozott) főnévből és az előtte álló bővítményekből áll. • A névszói szerkezetek lehetnek egymásba ágyazottak, de a belső névszói szerkezet teljes egészében benne van az őt tartalmazó névszói szerkezetben. • A főnév bővítményei a névelő, számnevek és a jelzők. • A főnév után álló névutó, határozószó már nem része a főnévhez tartozó névszói szerkezetnek.

  17. Egy NP-szerkezet ágrajza NP NP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} .

  18. Az NP-annotált szövegrészlet vázlata 1 Ritkán 2 vette <NP> 3 tudomásul </NP> <NP> <NP> <NP> 4 az 5 ablak </NP> 6 előtt 7 ülő 8 asszony </NP> 9 jelenlétét </NP> 10 .

  19. Az gazdagított szerkezet ágrajza ADVP V’ NP* NP** HEAD CHILDREN NP v NODE NODE ADJP NP* NP** PP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} .

  20. A gazdagított annotálás XML-struktúrája • <ADVP> • 1 Ritkán • </ADVP> • <V'> • <HEAD VERB_INDEX="#8875"> • <V> • 2 vette • </V> • </HEAD> • <CHILDREN> • <NODE ARGS=„3" type="NP"/> • <NODE ARGS=„4 5 6 7 8 9" type="NP"/> • </CHILDREN> • </V'> • <NP> • 3 tudomásul • </NP> • <NP> • <NP> • <ADJP> • <PP> • <NP> • 4,5 az ablak • </NP> • 6 előtt • </PP> • 7 ülő • </ADJP> • 8 asszony • </NP> • 9 jelenlétét • </NP> • 10 .

More Related