940 likes | 1.17k Views
Korpusznyelvészet. http://www.korpusz.com. Mi a korpusz?. Korpuszdefiníciók. MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztályának meghatározása:
E N D
Korpusznyelvészet http://www.korpusz.com
Korpuszdefiníciók MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztályának meghatározása: „A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Emellett pedig feltünteti a szavak mellett szófaji kódjukat is.”
Tom McArthur szakirodalmi szócikke szerint: „A nyelvészetben és lexikográfiában az általában elektronikus adatbázisként tárolt, egy adott nyelvre többé-kevésbé reprezentatívnak tekinthető írott szövegek, szóbeli közlések vagy egyéb minták gyűjteménye.” Nelson Francis definíciója: „az adott nyelvre, dialektusra vagy más nyelvi alcsoportra nézve reprezentatívnak tekintett szövegek gyűjteménye”
A korpusz tehát olyan szövegek gyűjteménye, amelyek: • reprezentatívak • elektronikus formában tároltak • nyelvészei elemzés céljából kerültek kiválogatásra
Nem tekintjük korpusznak: • az elektronikus szöveggyűjteményeket (pl. Oxfordi • Szövegarchívum) • a különböző internetes adatbázisokat (pl. táblázatok, • könyvjegyzékek…stb. )
Miért hozunk létre korpuszokat? • Európa: nyelvészeti elemzések céljából • Egyesült Államok: az elemzéseken keresztül a technikai • fejlődés elősegítésére (pl. beszédfelismerés)
A korpusz tervezése • Reprezentativitás • Az összegyűjtött anyagnak alkalmasnak kell lennie a kitűzött nyelvi elemzés megvalósítására • (pl. 1960-as és 1990-es évek nyelvének összehasonlítása) • Lehetséges-e egyáltalán? (különösen általános korpusznál) • Reprezentatív = kiegyensúlyozott (well-balanced) korpusz
II. Mintavétel • Mi kerüljön bele? Minél jobban körülhatárolható kutatásunk tárgya, annál könnyebben lehet döntéseket hozni a korpusz tartalmát illetően. • (egyetlen irodalmi mű < egy alkotó összes műve < a regények nyelvezete < egy teljes nyelv)
Az amerikai nyelv reprezentálására készült • Brown Korpusz • Fő kategóriái: • Informatív próza (75%) • Széppróza (25%)
Az informatív próza alkategóriái: • Riport (12%) • Vezércikk (7%) • Kritika és ismertetés (színház, könyv, zene tánc) (5%) • Vallás (5%) • Szakismeretek és hobbi (10%) • Népszerű ismeretek (13%) • Szépirodalom (életrajz, memoár) (20%) • Vegyes (8%) • Tanult (20%)
A széppróza alkategóriái: • Átalános(23%) • Detektívregény (19%) • Tudományos-fantasztikus (5%) • Kalandregény és western (23%) • Romantikus és szerelmes regények (23%) • Humor (7%)
Nemzetközi Angol Korpusz • International Corpus of English (ICE) • Az egyes alkorpuszok az angol nyelv egy-egy nemzetközi változatának szövegeit tartalmazzák • A z összehasonlíthatóság érdekében mindegyik alkorpusz szerkezete egyforma. • Minden szöveg kétezer szövegszóból áll, a zárójelben szereplő számok az adott csoportban szereplő szövegek • számát jelentik.
Magyar Nemzeti Szövegtár (MNSZ) • http://corpus.nytud.hu/mnsz/bevezeto_hun.html • Az MTA kezdeményezése a magyar nyelv korpusz alapú • leírására • 1998-ban kezdték el a kutatást, máig tart • Jelenleg 150 millió szót tartalmaz • célja: „lehetőségeihez mérten reprezentatívan tartalmazza • a mai magyar nyelv jellegzetes megnyilvánulásait”
III. A korpusz mérete • A korpusz mérete jelentősen befolyásolja a kutatás hitelességét • Méret = szavak (szóközzel elválasztott egységek) száma • - „token” (példány) a szövegben előforduló összes szó • - „type” (szóalak, típus) csak a különböző szavak • Brown Korpusz: 1 millió szövegszó • COBUILD (Collins Birmingham University International Language Databank): jelenleg 500 millió szövegszó
Problémák • Ahhoz, hogy egy szót a szövegkörnyezetében megvizsgáljunk, általában nem elég, ha csak egyszer találkozunk vele. A többször előforduló szavak száma nem nő arányosan a korpusz nagyságával. • A típusok száma mindent magában foglal: személyneveket, helységneveket, gépelési hibákat, amelyek látszólag új szavakat (típusokat) eredményeznek.
Vannak „csonka” szövegekből álló korpuszok: a nagyobb szövegszerkezeti jellemzőket nem vizsgálhatjuk a segítségükkel. • Magyar nyelvű korpuszoknál: lemmatizálás: ugyanannak a szótári egységnek a ragozott változatait (pl. eszem, eszik, ettetek…) egy csoportba vonjuk • A szóalakok csoportba vonása több előfordulást vizsgálhatunk
A korpuszok fajtái • A mintavétel módja szerint: • Statikus korpusz • Dinamikus korpusz • Monitor korpusz • A felhasználás módja szerint • Általános korpusz • Speciális korpusz • Összehasonlító korpusz • Párhuzamos korpusz • Fordítói korpusz • Nyelvtanulói korpusz • Pedagógiai korpusz • Történeti v. diakrón korpusz
Statikus korpusz • Változatlan korpuszok • Pl: Brown, LOB • Azért jó, mert a nyelvet egy bizonyos időpontban mintegy pillanatfelvételként ábrázolja • Összehasonlító kutatásokhoz tökéletes
Dinamikus korpusz • Folyamatosan bővül • Állandó a növekedés, de az arányok megmaradnak • Pl: Cobuild Korpusz
Monitor korpusz • Statikus és dinamikus kombinációja • Az eredeti korpusz arányait nem felborítva adnak még hozzá szövegeket • Így a hozzáadott elemek is összehasonlíthatók az eredeti korpusszal • Sinclair
Általános korpusz • Célja egy adott nyelv minél hitelesebben történő reprezentálása • Lexikológusoknak fontos • Nyelvtanok, nyelvleírások is ez alapján készülnek • Viszonyítási alapként is lehet használni • Pl: Bank of English, BNC
Speciális korpusz • Tulajdonképpen minden, ami eltér az általánostól • A vizsgálat céljának és tárgyának megfelelően kell kiválasztani az anyagot és korpuszba rendezni pl: egy társadalmi réteg nyelvének vizsgálata • Pl: Hongkongi Társalgási Angol Nyelv Korpusza, Cambridge and Notthingham Corpus of Discourse in English
Összehasonlító korpusz • Bármilyen korpusz, ha azonos szempontok szerint állították össze és méretük is azonos, összehasonlítható • Pl: LOB, Kolhapur Corpus of Indian English, Freiburg Korpusz, Australian Corpus of English
Párhuzamos korpusz • Azonos szövegek különböző nyelvi fordításai (ebben az eredeti is benne van) • Fordítói korpusz: csak fordításokra, egynyelvű, eredeti műveket nem tartalmaz Pl: francia regények magyar fordításai
Nyelvtanulói korpusz • Egy bizonyos nyelvet idegenként tanulók által létrehozott szövegek gyűjteménye • Tartalmazhat szóbeli megnyilatkozásokat is • Pl: International Corpus of Learner English • Horváth József PTE angol szakosok esszéiből készített korpuszt (2000)
Pedagógiai korpusz • Olyan szövegek gyűjteménye, amelyekkel a nyelvtanuló tanulmányai során találkozott • DE! ez így nem használható • Helyette: Az adott kurzuson előkerülő szövegek halmaza
Történeti vagy diakrón korpusz • Az adott nyelv történeti változásainak következtében, a múltbeli adatok feldolgozásával létrejött korpusz • Célja: nyelv változásának követése • Pl: International Computer Archive of Modern and Medieval English • Magyar Történeti Korpusz (MTA oldalán)
Átírás és annotáció • Létezik néhány olyan korpusz, ami a lehető legpontosabban kívánja visszaadni az élőbeszédet. • Pl: Lancaster – IBM Spoken English Corpus • Az átírás időigényes és szakértelmet kíván sok probléma! • Hangfelismerés • Automatizált átírás
A standard annotáció • Korpuszannotációnak nevezünk minden olyan információt és jelet, amelyet az eredeti szöveg nem tartalmazott, de a korpusz készítésekor a szövegbe került. • A korpuszban megjelenő leggyakoribb annotáció a szófajmegjelölés.
Speciális annotációk • Ortografikus • Fonetikus / fonémikus • Prozodikus • Szemantikai • Diskurzus • Pragmatikai / stilisztikai
Bárki bármilyen annotációt készíthet csak egyértelműnek kell lenni a jelölésnek és hogy melyik elemre utal. • Az izoláló nyelveket a legkönnyebb annotálni. • Az agglutináló nyelvek esetében szükség van morfológiai annotációra is. • Prószéky HuMor – helyesírási elemző programhoz használják, önállóan nem alkalmazzák
Az elektronikus korpuszok előfutárai I. Modern, nem elektonikus korpuszok 1.1 A szerb nyelv korpusza
ĐorđeKostić az 1950-es évek: a gépi fordítás, automatikus szöveg- és beszédfelismerés problémáit probabilisztikus módszerekkel lehet megoldani a korpusz létrehozása • Az eredeti korpusz: 11 millió szó, a 12. századtól Kostić koráig terjedő szövegek
A korpuszban minden szót lemmatizáltak, a nyelvtanra vonatkozó információkat egy hat számjegyből álló kóddal írták le. • A gépi fordítás tanulmányozása céljából nem csak szerb, hanem angol, német és francia szövegeket is feljegyeztek • A 60-as évek elején a projekt abbamaradt, de 1996-ban sikerült újraéleszteni
1.2. A SEU Korpusz (Survey of English Usage Corpus) • RandolphQuirk 1959-ben megalapította a Survey of English Usage-ot • A korpusz CD-ROM-on az International Computer Archive of Modern English-től (ICAME) szerezhető be • A korpusz segítségével: a felnőtt, iskolázott brit lakosság nyelvtani és szóhasználati szokásait akarták vizsgálni
A korpusz összesen egymillió szóból áll • A szövegek egyik fele írott, a másik fele pedig beszélt nyelvi adatokat tartalmaz, melyek kissé formálisak és tudományosak (például sajtószövegek, tudományos szövegek, magánlevelek, telefonbeszélgetések, sportkommentárok)
1.3. A Brown Korpusz (1964) • teljes nevén Brown University Standard Corpus of Present-DayAmerican English • a világ első elektronikus korpusza • 1 000 000 szövegszó a teljes korpusz • számos nyelvész követte a Brown Korpusz példáját, amikor saját korpuszukat megalkották
Néhány Brown-korpusz mintájára készült korpusz: • Lancaster–Oslo/Bergen Corpus (LOB), brit angol • Kolhapur Corpus of Indian English (KOL), indiai angol • Freiburg–LOB Corpus (FLOB), brit angol • the Corpus of English-CanadianWriting, kanadai angol
1.4. A LOB Korpusz • Létrehozó: az Oslói Egyetem, valamint a Bergenben működő Norvég Társadalomtudományi Számítástechnikai Központ (NorwegianComputingCentre fortheHumanities) • A Brown Korpusszal összehasonlítható, brit angol nyelvű korpusz, a szövegeket a Brown Korpusz szövegeivel azonos évből, 1961-ből válogatták.
1.5. A COBUILD projekt 1980-ban kezdte meg a Birminghami Egyetem és a Collins Publishers nevű kiadó ezt a közös projektet Két fő célja: • 1) nagy terjedelmű, számítógéppel feldolgozott modern angol nyelvű korpusz gyűjtése és elemzése • 2) az eredmények publikálása az angolt idegen nyelvként tanuló diákok és oktató tanárok számára készült referencia és oktató könyvek széles skáláját létrehozva
A COBUILD projekt első eredményeként kiadott korpusz-alapú szótár, a Collins COBUILD English languagedictionary az EFL (angol mint idegen nyelv) piacon változás A korpusz tervezése és az engedélyek beszerzése 1980-ban kezdődött
Az első korpusz: Main Corpus (Fő korpusz) volt, 7,3 millió szó 1985: Reserve Corpus (Tartalék Korpusz) 11 millió szó 1991: Bank of English (Az angol nyelv tárháza) A folyamatos hozzáadások 1993-ra már 120 millió, 1994-re 167 millió, 1995-re pedig több mint 320 millió szóra növekedett ez a korpusz A Bank of English jelenleg 524 millió szóból áll és állandóan növekszik, ennek a COBUILD Direct Corpus nevű része interneten elérhető
A COBUILD projekt célja nem csak referenciakönyvek kiadása volt, hanem a korpuszra épülő pedagógiai jellegű segédkönyvek és tankönyvek megjelentetése is: az egyes tankönyvekben szereplő tanításra szánt szavak kiválogatásakor a korpuszelemzések eredményeit vették figyelembe Willis házaspár Collins COBUILD Course of English (1988) című tankönyvsorozata