Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk

Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt

Tartalom • A számítógépes szövegfeldolgozás célja • Nyelvi adatbázisok szerepe • Szófaji kódolás - MSD kódrendszer • Korpuszok és a treebank • Szófaji egyértelműsítés • Főnévi csoportok (NP) felismerés

A Szövegfeldolgozás célja • Nagy mennyiségű elektronikusan tárolt, írott formátumú szöveg feldolgozása (fájlrendszer, adatbázis, web) • Alapvetően információkezelési okokból: keresés, dokumentum visszakeresés, indexelés • Fejlettebb módszereknél a tárolt információ tömör formában történő összegzése: csak a kívánt információ megjelenítése, kivonatolás, szövegbányászat

Nyelvi adatbázisok I. • A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése • A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) • Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) • Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása

Nyelvi adatbázisok II. • Szakszóval korpusznak nevezik az adott célból gyűjtött elektronikus szövegtárakat. • A korpusz adott nyelvi jelenségeket magába foglaló, tervezett elrendezésű, elegendően nagy méretű adattár. • BNC (British National Corpus, http://www.natcorp.ox.ac.uk) • OTA (Oxford Text Archive, http://ota.ahds.ac.uk) • Gutenberg project, http://www.gutenberg.org) • ETCSL (Electronic Text Corpus of Sumerian Literature, http://www-etcsl.orient.ox.ac.uk) • PubMed (http://www.pubmed.gov) • JRC Acquis Corpus (http://langtech.jrc.it/JRC-Acquis.html)

Nyelvi adatbázisok III. Magyar szövegtárak • MTSZ (Magyar Történelmi Szövegtár http://www.nytud.hu/hhc) • DIA (Digitális Irodalmi Akadémia, http://www.pim.hu) • MEK (Magyar Elektronikus Könyvtár, http://mek.oszk.hu) • Szószablya (http://www.szoszablya.hu) • eMagyarország (http://www.magyarorszag.hu) • Parlament (http://www.parlament.hu) • Újságok (http://www.hvg.hu, http://www.nol.hu, http://www.mno.hu, http://www.magyarhirlap.hu)

Nyelvi adatbázisok IV. Számítógépes nyelvészeti adatbázisok • LDC (Linguistic Data Consortium, http://www.ldc.upenn.edu), • ELRA (European LanguageResourcesAssociation, http://www.elra.info), • MNSZ (Magyar Nemzeti Szövegtár, http://www.nytud.hu/mnsz) • Szeged Korpusz (http://www.inf.u-szeged.hu/hlt)

Nyelvi adatbázisok IV. • A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése • A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) • Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) • Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása

Szófaji kódolás • Multext-East EU projekt 1995-97. (http://nl.ijs.si/ME/) • A morfoszintaktikai leírás (MorphoSyntacticDescription = MSD) magyar nyelvre alkalmazható változata • Jellemzői: • Az MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történik • Az értékek egyetlen karakterrel vannak kódolva

MSD kódrendszer Példa: Főnevek (Noun) – N asztalt: MSD=Nc-sa, Gábornak : MSD=Np-sg vagy MSD=Np-sd

MSD kódrendszer Példa: Igék (Verb) – V foglalnának: Vmcp3p

A Szintaxis modellezése • Frázis struktúra (ágrajz)A kötetlen szórend miatt a magyar nyelvben ez nehézséget okoz. A mondatrészek nem minden esetben rendezhetők fába. • Dependencia struktúra (függőségi fa)Minden szónak van egy hierarchiában felette álló őse. Az egész mondat felett áll egy virtuális ROOT (gyökér) csomópont, ami alá tartoznak a mondat szavai. Lazább szerkezet,

Speciális (nyílt) tokenosztályok

Tulajdonnevek • Az alábbi fontosabb csoportok automatikus felismerésére készül egy szabályrendszer a CLaRKhttp://btb.math.bas.bg/clark/index.html (ingyenes) XML alapú korpusz fejlesztő eszközzel. A cél: automatikus tulajdonnév felismerő rendszer készítése. • személynevek (a kereszt és vezetéknevek adatbázisátfelhasználva, az id. ifj. özv. dr. prof. asszonynév (-né), ...képzési formákat • cégnevek (akroním, hosszú név, tevékenység, cégforma [rt. kft. bt.]). • Intézmények (iskola, gimnázium, főiskola, egyetem, intézet, minisztérium, hivatal, ...) • földrajzi nevek (ismert nevek, továbbá az utca, út, dülő, patak, hegy, domb, falu, rét, ösvény, fasor, ... • egyéb tulajdonnevek

Annotáció • Többszintű NP struktúrák jelölése <NP> és </NP> • A tagmondatok jelölése <CP> tagekkel • A nem egyértelmű annotáció jele <XP comment=„”> • Részletes útmutató alapján dolgozó annotátorok • Egy fájlt 2 személy egymástól függetlenül annotált

Az NP (névszói szerkezet) annotálásának fontosabb alapelvei • Egy névszói szerkezet alapvetően egy (ragozott) főnévből és az előtte álló bővítményekből áll. • A névszói szerkezetek lehetnek egymásba ágyazottak, de a belső névszói szerkezet teljes egészében benne van az őt tartalmazó névszói szerkezetben. • A főnév bővítményei a névelő, számnevek és a jelzők. • A főnév után álló névutó, határozószó már nem része a főnévhez tartozó névszói szerkezetnek.

Egy NP-szerkezet ágrajza NP NP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} .

Az NP-annotált szövegrészlet vázlata 1 Ritkán 2 vette <NP> 3 tudomásul </NP> <NP> <NP> <NP> 4 az 5 ablak </NP> 6 előtt 7 ülő 8 asszony </NP> 9 jelenlétét </NP> 10 .

Az gazdagított szerkezet ágrajza ADVP V’ NP* NP** HEAD CHILDREN NP v NODE NODE ADJP NP* NP** PP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} .

A gazdagított annotálás XML-struktúrája • <ADVP> • 1 Ritkán • </ADVP> • <V'> • <HEAD VERB_INDEX="#8875"> • <V> • 2 vette • </V> • </HEAD> • <CHILDREN> • <NODE ARGS=„3" type="NP"/> • <NODE ARGS=„4 5 6 7 8 9" type="NP"/> • </CHILDREN> • </V'> • <NP> • 3 tudomásul • </NP> • <NP> • <NP> • <ADJP> • <PP> • <NP> • 4,5 az ablak • </NP> • 6 előtt • </PP> • 7 ülő • </ADJP> • 8 asszony • </NP> • 9 jelenlétét • </NP> • 10 .

Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk

Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk

Presentation Transcript

A tömegkommunikáció

Digit lis taneszk z k haszn lata a hum n tant rgyak tan r in

A francia nyelvi érettségi tapasztalatai

Nyelvművelő mozgalmak régen

A magyar nyelv történetének főbb korszakai

SQL OO elemei – aktív komponensek

C++ programozási nyelv Gyakorlat - 12. hét

Szó, szókészlet, szókincs

Uralisztika

NYESZE KONFERENCIA 2009.04.18.

A stílus fogalma, a nyelvi helyesség

A Magyar Tudomány Ünnepe M TA - DE - PTE - SZTE Elméleti Nyelvészeti Kutatócsoport

Nyitórendezvény

NYELVI KÉPZÉS AZ ÓBUDAI EGYETEMEN Elfogadta a Rektori Tanács 2010. 04. 19.

Weöres Sándor:

Nyelvtörténet I.

A nyelv és a gondolkodás fejlődése

A Nyelv- és Beszédtechnológiai Platform eredményei

Hogyan működik az elektronikus nyelv

Számítógép architektúrák

Őshaza itt-ott, őshaza mindenütt

Világ – Nyelv, az idegennyelv-tudás fejlesztésének kormányprogramja