160 likes | 252 Views
Idegennyelvű korpuszok. Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály kutij@nytud.hu. Korpuszok fajtái. általános korpuszok – többé-kevésbé reprezentatív mintavétel egy nyelv állapotáról nagy méretű korpuszok pl. nemzeti korpuszok
E N D
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály kutij@nytud.hu
Korpuszok fajtái • általános korpuszok – többé-kevésbé reprezentatív mintavétel egy nyelv állapotáról • nagy méretű korpuszok pl. nemzeti korpuszok • angol - British National Corpus (BNC) • német - IDS Mannheim korpuszai • francia – Kanadai Francia Korpusz • speciális korpuszok – a vizsgálat tárgya és célja szerinti szövegválasztás • általában kisebb méretű korpuszok, pl. különböző nyelvváltozatok korpuszai
Speciális korpuszok • beszélt nyelvi / írott nyelvi korpuszok • British National Corpus written / spoken (EN) • Freiburger Korpus / Korpora der geschriebenen Sprache (DE) • különböző műfajokat vizsgáló korpuszok • pl.: angol versek német újságírói nyelv(NEGRA korpusz) francia Le Monde korpusz • gyereknyelvi korpusz - CHILDES • történeti korpuszok • francia középkori korpusz • portugál középkori korpusz (1500-1900) • német rendszerváltás kori korpusz
Korpuszokban való keresés Konkordanciák készítése: • „Online Concordancer” • Web konkordancia készítő programok: • WebCONC: • a Google által elért szövegekben keres • a találatokat kontextusban adja ki • WebCORP • szógyakorisági listák készítése egyes weboldalakról • type-token megkülönböztetés • speciális lekérdezési beállítások
Korpuszok felhasználási lehetőségei Korpusz alapú szótárak: • COBUILD(Collins Birmingham University International Language Databank) • az első korpusz-alapú angol egynyelvű szótár • „The Bank of English” korpusz alapján • Longman Dictionary of Contemporary English • Longman Corpus Network alapján • online elérhető • DWDS(Digitales Wörterbuch der deutschen Sprache ) • a Wörterbuch der deutschen Sprache alapján, a DWDS korpusz példáival • közös keresőfelület • kollokációk és szemantikai relációk megjelenítése
Tanulói korpuszok: • Longman’s Corpus of Learner’s English (LCLE) • 10 millió szó • 8 különböző nyelvi tudásszint • International Corpus of Learner’s English (ICLE) • 19 alkorpusz • haladó tudásszintű nyelvtanulók • magyar nyelvtanulók anyagaival való kiegészítése folyamatban (ELTE, MTA Nyelvtudományi Intézet)