1 / 93

Korpusznyelvészet

Korpusznyelvészet. http://www.korpusz.com. Mi a korpusz?. Korpuszdefiníciók. MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztályának meghatározása:

uttara
Download Presentation

Korpusznyelvészet

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korpusznyelvészet http://www.korpusz.com

  2. Mi a korpusz?

  3. Korpuszdefiníciók MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztályának meghatározása: „A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Emellett pedig feltünteti a szavak mellett szófaji kódjukat is.”

  4. Tom McArthur szakirodalmi szócikke szerint: „A nyelvészetben és lexikográfiában az általában elektronikus adatbázisként tárolt, egy adott nyelvre többé-kevésbé reprezentatívnak tekinthető írott szövegek, szóbeli közlések vagy egyéb minták gyűjteménye.” Nelson Francis definíciója: „az adott nyelvre, dialektusra vagy más nyelvi alcsoportra nézve reprezentatívnak tekintett szövegek gyűjteménye”

  5. A korpusz tehát olyan szövegek gyűjteménye, amelyek: • reprezentatívak • elektronikus formában tároltak • nyelvészei elemzés céljából kerültek kiválogatásra

  6. Nem tekintjük korpusznak: • az elektronikus szöveggyűjteményeket (pl. Oxfordi • Szövegarchívum) • a különböző internetes adatbázisokat (pl. táblázatok, • könyvjegyzékek…stb. )

  7. Miért hozunk létre korpuszokat? • Európa: nyelvészeti elemzések céljából • Egyesült Államok: az elemzéseken keresztül a technikai • fejlődés elősegítésére (pl. beszédfelismerés)

  8. A korpusz tervezése • Reprezentativitás • Az összegyűjtött anyagnak alkalmasnak kell lennie a kitűzött nyelvi elemzés megvalósítására • (pl. 1960-as és 1990-es évek nyelvének összehasonlítása) • Lehetséges-e egyáltalán? (különösen általános korpusznál) • Reprezentatív = kiegyensúlyozott (well-balanced) korpusz

  9. II. Mintavétel • Mi kerüljön bele? Minél jobban körülhatárolható kutatásunk tárgya, annál könnyebben lehet döntéseket hozni a korpusz tartalmát illetően. • (egyetlen irodalmi mű < egy alkotó összes műve < a regények nyelvezete < egy teljes nyelv)

  10. Az amerikai nyelv reprezentálására készült • Brown Korpusz • Fő kategóriái: • Informatív próza (75%) • Széppróza (25%)

  11. Az informatív próza alkategóriái: • Riport (12%) • Vezércikk (7%) • Kritika és ismertetés (színház, könyv, zene tánc) (5%) • Vallás (5%) • Szakismeretek és hobbi (10%) • Népszerű ismeretek (13%) • Szépirodalom (életrajz, memoár) (20%) • Vegyes (8%) • Tanult (20%)

  12. A széppróza alkategóriái: • Átalános(23%) • Detektívregény (19%) • Tudományos-fantasztikus (5%) • Kalandregény és western (23%) • Romantikus és szerelmes regények (23%) • Humor (7%)

  13. Nemzetközi Angol Korpusz • International Corpus of English (ICE) • Az egyes alkorpuszok az angol nyelv egy-egy nemzetközi változatának szövegeit tartalmazzák • A z összehasonlíthatóság érdekében mindegyik alkorpusz szerkezete egyforma. • Minden szöveg kétezer szövegszóból áll, a zárójelben szereplő számok az adott csoportban szereplő szövegek • számát jelentik.

  14. Magyar Nemzeti Szövegtár (MNSZ) • http://corpus.nytud.hu/mnsz/bevezeto_hun.html • Az MTA kezdeményezése a magyar nyelv korpusz alapú • leírására • 1998-ban kezdték el a kutatást, máig tart • Jelenleg 150 millió szót tartalmaz • célja: „lehetőségeihez mérten reprezentatívan tartalmazza • a mai magyar nyelv jellegzetes megnyilvánulásait”

  15. III. A korpusz mérete • A korpusz mérete jelentősen befolyásolja a kutatás hitelességét • Méret = szavak (szóközzel elválasztott egységek) száma • - „token” (példány)  a szövegben előforduló összes szó • - „type” (szóalak, típus)  csak a különböző szavak • Brown Korpusz: 1 millió szövegszó • COBUILD (Collins Birmingham University International Language Databank): jelenleg 500 millió szövegszó

  16. Problémák • Ahhoz, hogy egy szót a szövegkörnyezetében megvizsgáljunk, általában nem elég, ha csak egyszer találkozunk vele. A többször előforduló szavak száma nem nő arányosan a korpusz nagyságával. • A típusok száma mindent magában foglal: személyneveket, helységneveket, gépelési hibákat, amelyek látszólag új szavakat (típusokat) eredményeznek.

  17. Vannak „csonka” szövegekből álló korpuszok: a nagyobb szövegszerkezeti jellemzőket nem vizsgálhatjuk a segítségükkel. • Magyar nyelvű korpuszoknál: lemmatizálás: ugyanannak a szótári egységnek a ragozott változatait (pl. eszem, eszik, ettetek…) egy csoportba vonjuk • A szóalakok csoportba vonása  több előfordulást vizsgálhatunk

  18. A korpuszok fajtái és annotációk

  19. A korpuszok fajtái • A mintavétel módja szerint: • Statikus korpusz • Dinamikus korpusz • Monitor korpusz • A felhasználás módja szerint • Általános korpusz • Speciális korpusz • Összehasonlító korpusz • Párhuzamos korpusz • Fordítói korpusz • Nyelvtanulói korpusz • Pedagógiai korpusz • Történeti v. diakrón korpusz

  20. A mintavétel módja szerint

  21. Statikus korpusz • Változatlan korpuszok • Pl: Brown, LOB • Azért jó, mert a nyelvet egy bizonyos időpontban mintegy pillanatfelvételként ábrázolja • Összehasonlító kutatásokhoz tökéletes

  22. Dinamikus korpusz • Folyamatosan bővül • Állandó a növekedés, de az arányok megmaradnak • Pl: Cobuild Korpusz

  23. Monitor korpusz • Statikus és dinamikus kombinációja • Az eredeti korpusz arányait nem felborítva adnak még hozzá szövegeket • Így a hozzáadott elemek is összehasonlíthatók az eredeti korpusszal • Sinclair

  24. A felhasználás módja szerint

  25. Általános korpusz • Célja egy adott nyelv minél hitelesebben történő reprezentálása • Lexikológusoknak fontos • Nyelvtanok, nyelvleírások is ez alapján készülnek • Viszonyítási alapként is lehet használni • Pl: Bank of English, BNC

  26. Speciális korpusz • Tulajdonképpen minden, ami eltér az általánostól • A vizsgálat céljának és tárgyának megfelelően kell kiválasztani az anyagot és korpuszba rendezni pl: egy társadalmi réteg nyelvének vizsgálata • Pl: Hongkongi Társalgási Angol Nyelv Korpusza, Cambridge and Notthingham Corpus of Discourse in English

  27. Összehasonlító korpusz • Bármilyen korpusz, ha azonos szempontok szerint állították össze és méretük is azonos, összehasonlítható • Pl: LOB, Kolhapur Corpus of Indian English, Freiburg Korpusz, Australian Corpus of English

  28. Párhuzamos korpusz • Azonos szövegek különböző nyelvi fordításai (ebben az eredeti is benne van) • Fordítói korpusz: csak fordításokra, egynyelvű, eredeti műveket nem tartalmaz Pl: francia regények magyar fordításai

  29. Nyelvtanulói korpusz • Egy bizonyos nyelvet idegenként tanulók által létrehozott szövegek gyűjteménye • Tartalmazhat szóbeli megnyilatkozásokat is • Pl: International Corpus of Learner English • Horváth József PTE angol szakosok esszéiből készített korpuszt (2000)

  30. Pedagógiai korpusz • Olyan szövegek gyűjteménye, amelyekkel a nyelvtanuló tanulmányai során találkozott • DE! ez így nem használható • Helyette: Az adott kurzuson előkerülő szövegek halmaza

  31. Történeti vagy diakrón korpusz • Az adott nyelv történeti változásainak következtében, a múltbeli adatok feldolgozásával létrejött korpusz • Célja: nyelv változásának követése • Pl: International Computer Archive of Modern and Medieval English • Magyar Történeti Korpusz (MTA oldalán)

  32. Átírás és annotáció • Létezik néhány olyan korpusz, ami a lehető legpontosabban kívánja visszaadni az élőbeszédet. • Pl: Lancaster – IBM Spoken English Corpus • Az átírás időigényes és szakértelmet kíván  sok probléma! • Hangfelismerés • Automatizált átírás

  33. A standard annotáció • Korpuszannotációnak nevezünk minden olyan információt és jelet, amelyet az eredeti szöveg nem tartalmazott, de a korpusz készítésekor a szövegbe került. • A korpuszban megjelenő leggyakoribb annotáció a szófajmegjelölés.

  34. Az MNSZ alapkódjai

  35. Speciális annotációk • Ortografikus • Fonetikus / fonémikus • Prozodikus • Szemantikai • Diskurzus • Pragmatikai / stilisztikai

  36. Bárki bármilyen annotációt készíthet csak egyértelműnek kell lenni a jelölésnek és hogy melyik elemre utal. • Az izoláló nyelveket a legkönnyebb annotálni. • Az agglutináló nyelvek esetében szükség van morfológiai annotációra is. • Prószéky HuMor – helyesírási elemző programhoz használják, önállóan nem alkalmazzák

  37. Angol nyelvű korpuszok

  38. Az elektronikus korpuszok előfutárai I. Modern, nem elektonikus korpuszok 1.1 A szerb nyelv korpusza

  39. ĐorđeKostić az 1950-es évek: a gépi fordítás, automatikus szöveg- és beszédfelismerés problémáit probabilisztikus módszerekkel lehet megoldani a korpusz létrehozása • Az eredeti korpusz: 11 millió szó, a 12. századtól Kostić koráig terjedő szövegek

  40. A korpuszban minden szót lemmatizáltak, a nyelvtanra vonatkozó információkat egy hat számjegyből álló kóddal írták le. • A gépi fordítás tanulmányozása céljából nem csak szerb, hanem angol, német és francia szövegeket is feljegyeztek • A 60-as évek elején a projekt abbamaradt, de 1996-ban sikerült újraéleszteni

  41. 1.2. A SEU Korpusz (Survey of English Usage Corpus) • RandolphQuirk 1959-ben megalapította a Survey of English Usage-ot • A korpusz CD-ROM-on az International Computer Archive of Modern English-től (ICAME) szerezhető be • A korpusz segítségével: a felnőtt, iskolázott brit lakosság nyelvtani és szóhasználati szokásait akarták vizsgálni

  42. A korpusz összesen egymillió szóból áll • A szövegek egyik fele írott, a másik fele pedig beszélt nyelvi adatokat tartalmaz, melyek kissé formálisak és tudományosak (például sajtószövegek, tudományos szövegek, magánlevelek, telefonbeszélgetések, sportkommentárok)

  43. 1.3. A Brown Korpusz (1964) • teljes nevén Brown University Standard Corpus of Present-DayAmerican English • a világ első elektronikus korpusza • 1 000 000 szövegszó a teljes korpusz • számos nyelvész követte a Brown Korpusz példáját, amikor saját korpuszukat megalkották

  44. Néhány Brown-korpusz mintájára készült korpusz: • Lancaster–Oslo/Bergen Corpus (LOB), brit angol • Kolhapur Corpus of Indian English (KOL), indiai angol • Freiburg–LOB Corpus (FLOB), brit angol • the Corpus of English-CanadianWriting, kanadai angol

  45. 1.4. A LOB Korpusz • Létrehozó: az Oslói Egyetem, valamint a Bergenben működő Norvég Társadalomtudományi Számítástechnikai Központ (NorwegianComputingCentre fortheHumanities) • A Brown Korpusszal összehasonlítható, brit angol nyelvű korpusz, a szövegeket a Brown Korpusz szövegeivel azonos évből, 1961-ből válogatták.

  46. 1.5. A COBUILD projekt 1980-ban kezdte meg a Birminghami Egyetem és a Collins Publishers nevű kiadó ezt a közös projektet Két fő célja: • 1) nagy terjedelmű, számítógéppel feldolgozott modern angol nyelvű korpusz gyűjtése és elemzése • 2) az eredmények publikálása az angolt idegen nyelvként tanuló diákok és oktató tanárok számára készült referencia és oktató könyvek széles skáláját létrehozva

  47. A COBUILD projekt első eredményeként kiadott korpusz-alapú szótár, a Collins COBUILD English languagedictionary az EFL (angol mint idegen nyelv) piacon változás A korpusz tervezése és az engedélyek beszerzése 1980-ban kezdődött

  48. Az első korpusz: Main Corpus (Fő korpusz) volt, 7,3 millió szó 1985: Reserve Corpus (Tartalék Korpusz) 11 millió szó 1991: Bank of English (Az angol nyelv tárháza) A folyamatos hozzáadások 1993-ra már 120 millió, 1994-re 167 millió, 1995-re pedig több mint 320 millió szóra növekedett ez a korpusz A Bank of English jelenleg 524 millió szóból áll és állandóan növekszik, ennek a COBUILD Direct Corpus nevű része interneten elérhető

  49. A COBUILD projekt célja nem csak referenciakönyvek kiadása volt, hanem a korpuszra épülő pedagógiai jellegű segédkönyvek és tankönyvek megjelentetése is: az egyes tankönyvekben szereplő tanításra szánt szavak kiválogatásakor a korpuszelemzések eredményeit vették figyelembe Willis házaspár Collins COBUILD Course of English (1988) című tankönyvsorozata

More Related