230 likes | 452 Views
Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk. Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt. Tartalom. A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok szerepe Szófaji kódolás - MSD kódrendszer Korpuszok és a treebank Szófaji egyértelműsítés
E N D
Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt
Tartalom • A számítógépes szövegfeldolgozás célja • Nyelvi adatbázisok szerepe • Szófaji kódolás - MSD kódrendszer • Korpuszok és a treebank • Szófaji egyértelműsítés • Főnévi csoportok (NP) felismerés
A Szövegfeldolgozás célja • Nagy mennyiségű elektronikusan tárolt, írott formátumú szöveg feldolgozása (fájlrendszer, adatbázis, web) • Alapvetően információkezelési okokból: keresés, dokumentum visszakeresés, indexelés • Fejlettebb módszereknél a tárolt információ tömör formában történő összegzése: csak a kívánt információ megjelenítése, kivonatolás, szövegbányászat
Nyelvi adatbázisok I. • A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése • A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) • Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) • Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása
Nyelvi adatbázisok II. • Szakszóval korpusznak nevezik az adott célból gyűjtött elektronikus szövegtárakat. • A korpusz adott nyelvi jelenségeket magába foglaló, tervezett elrendezésű, elegendően nagy méretű adattár. • BNC (British National Corpus, http://www.natcorp.ox.ac.uk) • OTA (Oxford Text Archive, http://ota.ahds.ac.uk) • Gutenberg project, http://www.gutenberg.org) • ETCSL (Electronic Text Corpus of Sumerian Literature, http://www-etcsl.orient.ox.ac.uk) • PubMed (http://www.pubmed.gov) • JRC Acquis Corpus (http://langtech.jrc.it/JRC-Acquis.html)
Nyelvi adatbázisok III. Magyar szövegtárak • MTSZ (Magyar Történelmi Szövegtár http://www.nytud.hu/hhc) • DIA (Digitális Irodalmi Akadémia, http://www.pim.hu) • MEK (Magyar Elektronikus Könyvtár, http://mek.oszk.hu) • Szószablya (http://www.szoszablya.hu) • eMagyarország (http://www.magyarorszag.hu) • Parlament (http://www.parlament.hu) • Újságok (http://www.hvg.hu, http://www.nol.hu, http://www.mno.hu, http://www.magyarhirlap.hu)
Nyelvi adatbázisok IV. Számítógépes nyelvészeti adatbázisok • LDC (Linguistic Data Consortium, http://www.ldc.upenn.edu), • ELRA (European LanguageResourcesAssociation, http://www.elra.info), • MNSZ (Magyar Nemzeti Szövegtár, http://www.nytud.hu/mnsz) • Szeged Korpusz (http://www.inf.u-szeged.hu/hlt)
Nyelvi adatbázisok IV. • A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése • A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) • Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) • Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása
Szófaji kódolás • Multext-East EU projekt 1995-97. (http://nl.ijs.si/ME/) • A morfoszintaktikai leírás (MorphoSyntacticDescription = MSD) magyar nyelvre alkalmazható változata • Jellemzői: • Az MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történik • Az értékek egyetlen karakterrel vannak kódolva
MSD kódrendszer Példa: Főnevek (Noun) – N asztalt: MSD=Nc-sa, Gábornak : MSD=Np-sg vagy MSD=Np-sd
MSD kódrendszer Példa: Igék (Verb) – V foglalnának: Vmcp3p
A Szintaxis modellezése • Frázis struktúra (ágrajz)A kötetlen szórend miatt a magyar nyelvben ez nehézséget okoz. A mondatrészek nem minden esetben rendezhetők fába. • Dependencia struktúra (függőségi fa)Minden szónak van egy hierarchiában felette álló őse. Az egész mondat felett áll egy virtuális ROOT (gyökér) csomópont, ami alá tartoznak a mondat szavai. Lazább szerkezet,
Tulajdonnevek • Az alábbi fontosabb csoportok automatikus felismerésére készül egy szabályrendszer a CLaRKhttp://btb.math.bas.bg/clark/index.html (ingyenes) XML alapú korpusz fejlesztő eszközzel. A cél: automatikus tulajdonnév felismerő rendszer készítése. • személynevek (a kereszt és vezetéknevek adatbázisátfelhasználva, az id. ifj. özv. dr. prof. asszonynév (-né), ...képzési formákat • cégnevek (akroním, hosszú név, tevékenység, cégforma [rt. kft. bt.]). • Intézmények (iskola, gimnázium, főiskola, egyetem, intézet, minisztérium, hivatal, ...) • földrajzi nevek (ismert nevek, továbbá az utca, út, dülő, patak, hegy, domb, falu, rét, ösvény, fasor, ... • egyéb tulajdonnevek
Annotáció • Többszintű NP struktúrák jelölése <NP> és </NP> • A tagmondatok jelölése <CP> tagekkel • A nem egyértelmű annotáció jele <XP comment=„”> • Részletes útmutató alapján dolgozó annotátorok • Egy fájlt 2 személy egymástól függetlenül annotált
Az NP (névszói szerkezet) annotálásának fontosabb alapelvei • Egy névszói szerkezet alapvetően egy (ragozott) főnévből és az előtte álló bővítményekből áll. • A névszói szerkezetek lehetnek egymásba ágyazottak, de a belső névszói szerkezet teljes egészében benne van az őt tartalmazó névszói szerkezetben. • A főnév bővítményei a névelő, számnevek és a jelzők. • A főnév után álló névutó, határozószó már nem része a főnévhez tartozó névszói szerkezetnek.
Egy NP-szerkezet ágrajza NP NP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} .
Az NP-annotált szövegrészlet vázlata 1 Ritkán 2 vette <NP> 3 tudomásul </NP> <NP> <NP> <NP> 4 az 5 ablak </NP> 6 előtt 7 ülő 8 asszony </NP> 9 jelenlétét </NP> 10 .
Az gazdagított szerkezet ágrajza ADVP V’ NP* NP** HEAD CHILDREN NP v NODE NODE ADJP NP* NP** PP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} .
A gazdagított annotálás XML-struktúrája • <ADVP> • 1 Ritkán • </ADVP> • <V'> • <HEAD VERB_INDEX="#8875"> • <V> • 2 vette • </V> • </HEAD> • <CHILDREN> • <NODE ARGS=„3" type="NP"/> • <NODE ARGS=„4 5 6 7 8 9" type="NP"/> • </CHILDREN> • </V'> • <NP> • 3 tudomásul • </NP> • <NP> • <NP> • <ADJP> • <PP> • <NP> • 4,5 az ablak • </NP> • 6 előtt • </PP> • 7 ülő • </ADJP> • 8 asszony • </NP> • 9 jelenlétét • </NP> • 10 .