140 likes | 249 Views
A Magyar Nemzeti Szövegtár. Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály varadi@nytud.hu. Tartalom. Rövid jellemzés Kiknek készült? Nemzetközi előzmények Összetétele Mitől „nemzeti”? Hogyan készült? Hogy néz ki belülről? Hogyan használható? Intelligens keresés
E N D
Magyar Nemzeti Szövegtár A Magyar Nemzeti Szövegtár Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály varadi@nytud.hu
Magyar Nemzeti Szövegtár Tartalom • Rövid jellemzés • Kiknek készült? • Nemzetközi előzmények • Összetétele • Mitől „nemzeti”? • Hogyan készült? • Hogy néz ki belülről? • Hogyan használható? • Intelligens keresés • Hogyan tovább?
Magyar Nemzeti Szövegtár Rövid jellemzés • Az írott nyelvhasználat hiteles tükre • 150 millió szavas reprezentatív minta • Válogatott szövegek, egységesen kódolva • nyelvhasználatunk keresztmetszete • válogatás nem ‘érdem’ alapján • Intelligens korpusz • nyelvtanilag elemzett és egyértelműsített • lekérdezés nyelvtani jellemző szerint is
Magyar Nemzeti Szövegtár Kiknek készült? • Nyelvészeknek, szótárszerkesztőknek pontos, számszerűsíthető kép napjaink írott magyar nyelvhasználatáról • Számítógépes nyelvészeknek értékes forrás számítógépes alkalmazások számára • Társadalomtudósoknak, a magyar kultúra kutatóinak a nyelvhasználatban kódolt finom „üzenetek”
Magyar Nemzeti Szövegtár Nemzetközi előzmények • 60-as évek: BROWN, LOB korpusz 1 millió szavas gondos összeállítás • 80-as évek: COBUILD szótár 20 m 450 m szó Bank of English • 90-es évek: British National Corpus 100m szó, 10 m szó beszélt nyelvből • 90-évektől: nemzeti korpuszok Cseh, szlovén, német, francia, USA, ausztrál stb.
Magyar Nemzeti Szövegtár Az MNSZ összetétele
Magyar Nemzeti Szövegtár Mitől „nemzeti”? • Mérete szerint • egyedülálló vállalkozás • Tartalma szerint • nem csak az „írástudó elit” nyelvezete • nem csak budapesti nyelvhasználat • határon túli nyelvhasználat is • Kárpát-medencei Magyar Korpusz • előkészületben az MNSZ alapján
Magyar Nemzeti Szövegtár Hogyan készült? • Elektronikus források • Előfeldolgozás • Nyelvtani elemzés • Egyértelműsítés • Összefűzés, indexálás • Lekérdező szoftver • 1998 – 2000 között OTKA támogatás • 2002-2003 SZT-IS-7 pályázat
Magyar Nemzeti Szövegtár Hogy néz ki belülről? Annotált korpusz - részlet belülről <!-- HVG ./0116/0116009.htm --> <div type="article" column="unspec"> <opener> <dateline> <w lemma="HVG" msd="N.NOM" ctag="NS3NN">HVG</w> <w lemma="2001/16" msd="DIG" ctag="Q">2001/16</w> <c lemma="." msd="SPUNCT" ctag="SPUNCT">.</c> <w lemma="szám" msd="N.NOM" ctag="NS3NN">szám</w> <date iso8601="04-21-2001"> <w lemma="2001._április_21." msd="DATUM" ctag="DATUM">2001._április_21.</w> </date> </dateline> </opener> <head rend="IT" type="unspec"> <s> <w lemma="egészségügyi" msd="A.NOM" ctag="AS_A">Egészségügyi</w> <w lemma="szigorítás" msd="N.PL.NOM" ctag="NP3NN">szigorítások</w> </s> </head> <head> <s> <w lemma="sok" msd="Num.NOM" ctag="Q">Sok</w> <w lemma="zseb" msd="N.ELA" ctag="NS3NE">zsebből</w> <w lemma="vérzik" msd="V.e3" ctag="VS3RI">vérzik</w> </s> </head> <head rend="BO" type="display"> <s>
Magyar Nemzeti Szövegtár Hogyan használható? - Keresés
Magyar Nemzeti Szövegtár Hogyan használható? - Találatok
Magyar Nemzeti Szövegtár Intelligens keresés • Keresés szófaj és nyelvtani alak alapján • pl. „az”: 656272 előfordulás • névelő és mutatószó egyaránt • 15542 esetben mutatószó • Két szó együttes előfordulása • állandósult szókapcsolatok • igei vonzatok
Magyar Nemzeti Szövegtár Hogyan tovább? • állapotfelvétel a 90-es évek második feléről • a nyelvhasználat dokumentálása • újabb és újabb állapotfelvétel • élő nyelvtörténet • minden eddiginél pontosabb adatokkal
Magyar Nemzeti Szövegtár Magyar Nemzeti Szövegtár http://corpus.nytud.hu/mnsz varadi@nytud.hu