Korpusznyelvészet

Korpusznyelvészet http://www.korpusz.com

Mi a korpusz?

Korpuszdefiníciók MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztályának meghatározása: „A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Emellett pedig feltünteti a szavak mellett szófaji kódjukat is.”

Tom McArthur szakirodalmi szócikke szerint: „A nyelvészetben és lexikográfiában az általában elektronikus adatbázisként tárolt, egy adott nyelvre többé-kevésbé reprezentatívnak tekinthető írott szövegek, szóbeli közlések vagy egyéb minták gyűjteménye.” Nelson Francis definíciója: „az adott nyelvre, dialektusra vagy más nyelvi alcsoportra nézve reprezentatívnak tekintett szövegek gyűjteménye”

A korpusz tehát olyan szövegek gyűjteménye, amelyek: • reprezentatívak • elektronikus formában tároltak • nyelvészei elemzés céljából kerültek kiválogatásra

Nem tekintjük korpusznak: • az elektronikus szöveggyűjteményeket (pl. Oxfordi • Szövegarchívum) • a különböző internetes adatbázisokat (pl. táblázatok, • könyvjegyzékek…stb. )

Miért hozunk létre korpuszokat? • Európa: nyelvészeti elemzések céljából • Egyesült Államok: az elemzéseken keresztül a technikai • fejlődés elősegítésére (pl. beszédfelismerés)

A korpusz tervezése • Reprezentativitás • Az összegyűjtött anyagnak alkalmasnak kell lennie a kitűzött nyelvi elemzés megvalósítására • (pl. 1960-as és 1990-es évek nyelvének összehasonlítása) • Lehetséges-e egyáltalán? (különösen általános korpusznál) • Reprezentatív = kiegyensúlyozott (well-balanced) korpusz

II. Mintavétel • Mi kerüljön bele? Minél jobban körülhatárolható kutatásunk tárgya, annál könnyebben lehet döntéseket hozni a korpusz tartalmát illetően. • (egyetlen irodalmi mű < egy alkotó összes műve < a regények nyelvezete < egy teljes nyelv)

Az amerikai nyelv reprezentálására készült • Brown Korpusz • Fő kategóriái: • Informatív próza (75%) • Széppróza (25%)

Az informatív próza alkategóriái: • Riport (12%) • Vezércikk (7%) • Kritika és ismertetés (színház, könyv, zene tánc) (5%) • Vallás (5%) • Szakismeretek és hobbi (10%) • Népszerű ismeretek (13%) • Szépirodalom (életrajz, memoár) (20%) • Vegyes (8%) • Tanult (20%)

A széppróza alkategóriái: • Átalános(23%) • Detektívregény (19%) • Tudományos-fantasztikus (5%) • Kalandregény és western (23%) • Romantikus és szerelmes regények (23%) • Humor (7%)

Nemzetközi Angol Korpusz • International Corpus of English (ICE) • Az egyes alkorpuszok az angol nyelv egy-egy nemzetközi változatának szövegeit tartalmazzák • A z összehasonlíthatóság érdekében mindegyik alkorpusz szerkezete egyforma. • Minden szöveg kétezer szövegszóból áll, a zárójelben szereplő számok az adott csoportban szereplő szövegek • számát jelentik.

Magyar Nemzeti Szövegtár (MNSZ) • http://corpus.nytud.hu/mnsz/bevezeto_hun.html • Az MTA kezdeményezése a magyar nyelv korpusz alapú • leírására • 1998-ban kezdték el a kutatást, máig tart • Jelenleg 150 millió szót tartalmaz • célja: „lehetőségeihez mérten reprezentatívan tartalmazza • a mai magyar nyelv jellegzetes megnyilvánulásait”

III. A korpusz mérete • A korpusz mérete jelentősen befolyásolja a kutatás hitelességét • Méret = szavak (szóközzel elválasztott egységek) száma • - „token” (példány)  a szövegben előforduló összes szó • - „type” (szóalak, típus)  csak a különböző szavak • Brown Korpusz: 1 millió szövegszó • COBUILD (Collins Birmingham University International Language Databank): jelenleg 500 millió szövegszó

Problémák • Ahhoz, hogy egy szót a szövegkörnyezetében megvizsgáljunk, általában nem elég, ha csak egyszer találkozunk vele. A többször előforduló szavak száma nem nő arányosan a korpusz nagyságával. • A típusok száma mindent magában foglal: személyneveket, helységneveket, gépelési hibákat, amelyek látszólag új szavakat (típusokat) eredményeznek.

Vannak „csonka” szövegekből álló korpuszok: a nagyobb szövegszerkezeti jellemzőket nem vizsgálhatjuk a segítségükkel. • Magyar nyelvű korpuszoknál: lemmatizálás: ugyanannak a szótári egységnek a ragozott változatait (pl. eszem, eszik, ettetek…) egy csoportba vonjuk • A szóalakok csoportba vonása  több előfordulást vizsgálhatunk

A korpuszok fajtái és annotációk

A korpuszok fajtái • A mintavétel módja szerint: • Statikus korpusz • Dinamikus korpusz • Monitor korpusz • A felhasználás módja szerint • Általános korpusz • Speciális korpusz • Összehasonlító korpusz • Párhuzamos korpusz • Fordítói korpusz • Nyelvtanulói korpusz • Pedagógiai korpusz • Történeti v. diakrón korpusz

A mintavétel módja szerint

Statikus korpusz • Változatlan korpuszok • Pl: Brown, LOB • Azért jó, mert a nyelvet egy bizonyos időpontban mintegy pillanatfelvételként ábrázolja • Összehasonlító kutatásokhoz tökéletes

Dinamikus korpusz • Folyamatosan bővül • Állandó a növekedés, de az arányok megmaradnak • Pl: Cobuild Korpusz

Monitor korpusz • Statikus és dinamikus kombinációja • Az eredeti korpusz arányait nem felborítva adnak még hozzá szövegeket • Így a hozzáadott elemek is összehasonlíthatók az eredeti korpusszal • Sinclair

A felhasználás módja szerint

Általános korpusz • Célja egy adott nyelv minél hitelesebben történő reprezentálása • Lexikológusoknak fontos • Nyelvtanok, nyelvleírások is ez alapján készülnek • Viszonyítási alapként is lehet használni • Pl: Bank of English, BNC

Speciális korpusz • Tulajdonképpen minden, ami eltér az általánostól • A vizsgálat céljának és tárgyának megfelelően kell kiválasztani az anyagot és korpuszba rendezni pl: egy társadalmi réteg nyelvének vizsgálata • Pl: Hongkongi Társalgási Angol Nyelv Korpusza, Cambridge and Notthingham Corpus of Discourse in English

Összehasonlító korpusz • Bármilyen korpusz, ha azonos szempontok szerint állították össze és méretük is azonos, összehasonlítható • Pl: LOB, Kolhapur Corpus of Indian English, Freiburg Korpusz, Australian Corpus of English

Párhuzamos korpusz • Azonos szövegek különböző nyelvi fordításai (ebben az eredeti is benne van) • Fordítói korpusz: csak fordításokra, egynyelvű, eredeti műveket nem tartalmaz Pl: francia regények magyar fordításai

Nyelvtanulói korpusz • Egy bizonyos nyelvet idegenként tanulók által létrehozott szövegek gyűjteménye • Tartalmazhat szóbeli megnyilatkozásokat is • Pl: International Corpus of Learner English • Horváth József PTE angol szakosok esszéiből készített korpuszt (2000)

Pedagógiai korpusz • Olyan szövegek gyűjteménye, amelyekkel a nyelvtanuló tanulmányai során találkozott • DE! ez így nem használható • Helyette: Az adott kurzuson előkerülő szövegek halmaza

Történeti vagy diakrón korpusz • Az adott nyelv történeti változásainak következtében, a múltbeli adatok feldolgozásával létrejött korpusz • Célja: nyelv változásának követése • Pl: International Computer Archive of Modern and Medieval English • Magyar Történeti Korpusz (MTA oldalán)

Átírás és annotáció • Létezik néhány olyan korpusz, ami a lehető legpontosabban kívánja visszaadni az élőbeszédet. • Pl: Lancaster – IBM Spoken English Corpus • Az átírás időigényes és szakértelmet kíván  sok probléma! • Hangfelismerés • Automatizált átírás

A standard annotáció • Korpuszannotációnak nevezünk minden olyan információt és jelet, amelyet az eredeti szöveg nem tartalmazott, de a korpusz készítésekor a szövegbe került. • A korpuszban megjelenő leggyakoribb annotáció a szófajmegjelölés.

Az MNSZ alapkódjai

Speciális annotációk • Ortografikus • Fonetikus / fonémikus • Prozodikus • Szemantikai • Diskurzus • Pragmatikai / stilisztikai

Bárki bármilyen annotációt készíthet csak egyértelműnek kell lenni a jelölésnek és hogy melyik elemre utal. • Az izoláló nyelveket a legkönnyebb annotálni. • Az agglutináló nyelvek esetében szükség van morfológiai annotációra is. • Prószéky HuMor – helyesírási elemző programhoz használják, önállóan nem alkalmazzák

Angol nyelvű korpuszok

Az elektronikus korpuszok előfutárai I. Modern, nem elektonikus korpuszok 1.1 A szerb nyelv korpusza

ĐorđeKostić az 1950-es évek: a gépi fordítás, automatikus szöveg- és beszédfelismerés problémáit probabilisztikus módszerekkel lehet megoldani a korpusz létrehozása • Az eredeti korpusz: 11 millió szó, a 12. századtól Kostić koráig terjedő szövegek

A korpuszban minden szót lemmatizáltak, a nyelvtanra vonatkozó információkat egy hat számjegyből álló kóddal írták le. • A gépi fordítás tanulmányozása céljából nem csak szerb, hanem angol, német és francia szövegeket is feljegyeztek • A 60-as évek elején a projekt abbamaradt, de 1996-ban sikerült újraéleszteni

1.2. A SEU Korpusz (Survey of English Usage Corpus) • RandolphQuirk 1959-ben megalapította a Survey of English Usage-ot • A korpusz CD-ROM-on az International Computer Archive of Modern English-től (ICAME) szerezhető be • A korpusz segítségével: a felnőtt, iskolázott brit lakosság nyelvtani és szóhasználati szokásait akarták vizsgálni

A korpusz összesen egymillió szóból áll • A szövegek egyik fele írott, a másik fele pedig beszélt nyelvi adatokat tartalmaz, melyek kissé formálisak és tudományosak (például sajtószövegek, tudományos szövegek, magánlevelek, telefonbeszélgetések, sportkommentárok)

1.3. A Brown Korpusz (1964) • teljes nevén Brown University Standard Corpus of Present-DayAmerican English • a világ első elektronikus korpusza • 1 000 000 szövegszó a teljes korpusz • számos nyelvész követte a Brown Korpusz példáját, amikor saját korpuszukat megalkották

Néhány Brown-korpusz mintájára készült korpusz: • Lancaster–Oslo/Bergen Corpus (LOB), brit angol • Kolhapur Corpus of Indian English (KOL), indiai angol • Freiburg–LOB Corpus (FLOB), brit angol • the Corpus of English-CanadianWriting, kanadai angol

1.4. A LOB Korpusz • Létrehozó: az Oslói Egyetem, valamint a Bergenben működő Norvég Társadalomtudományi Számítástechnikai Központ (NorwegianComputingCentre fortheHumanities) • A Brown Korpusszal összehasonlítható, brit angol nyelvű korpusz, a szövegeket a Brown Korpusz szövegeivel azonos évből, 1961-ből válogatták.

1.5. A COBUILD projekt 1980-ban kezdte meg a Birminghami Egyetem és a Collins Publishers nevű kiadó ezt a közös projektet Két fő célja: • 1) nagy terjedelmű, számítógéppel feldolgozott modern angol nyelvű korpusz gyűjtése és elemzése • 2) az eredmények publikálása az angolt idegen nyelvként tanuló diákok és oktató tanárok számára készült referencia és oktató könyvek széles skáláját létrehozva

A COBUILD projekt első eredményeként kiadott korpusz-alapú szótár, a Collins COBUILD English languagedictionary az EFL (angol mint idegen nyelv) piacon változás A korpusz tervezése és az engedélyek beszerzése 1980-ban kezdődött

Az első korpusz: Main Corpus (Fő korpusz) volt, 7,3 millió szó 1985: Reserve Corpus (Tartalék Korpusz) 11 millió szó 1991: Bank of English (Az angol nyelv tárháza) A folyamatos hozzáadások 1993-ra már 120 millió, 1994-re 167 millió, 1995-re pedig több mint 320 millió szóra növekedett ez a korpusz A Bank of English jelenleg 524 millió szóból áll és állandóan növekszik, ennek a COBUILD Direct Corpus nevű része interneten elérhető

A COBUILD projekt célja nem csak referenciakönyvek kiadása volt, hanem a korpuszra épülő pedagógiai jellegű segédkönyvek és tankönyvek megjelentetése is: az egyes tankönyvekben szereplő tanításra szánt szavak kiválogatásakor a korpuszelemzések eredményeit vették figyelembe Willis házaspár Collins COBUILD Course of English (1988) című tankönyvsorozata

Korpusznyelvészet

Korpusznyelvészet

Presentation Transcript

Csillósok osztálya

Szecesszió: 1890 – 1914

Toszkána – Firenze: reneszánsz művészet kiindulópontja

A rosszindulatú emlő megbetegedések diagnosztikája, sebészi kezelése

A fotográfia története

Magánépítészet Villák és bérházak

A háziorvos és a pitvarfibrilláló beteg

A KÖZÉPKOR IRODALMA

Energiabiztonság és rendészet

MI AZ ESZTÉTIKUM?

Művészeti tájékoztatás

Irodalom és nyelvészet az interneten

Klasszicizmus (művészet, építészet, szobrászat, zene, irodalom)

Az antik művészet. Görög művészet – „A nagy ébredés”

Az építészet FOGALMA

Avantgard Európában 1945 előtt

A reneszánsz festészet

Vidékfejlesztés

Helyi Vidékfejlesztési Stratégia – Körösök Völgye ACS NP Kft.

Klinikai Gyógyszerészet

Kiskunsági Nemzeti Park

Makovecz Imre (1935-2011)