130 likes | 328 Views
Hány szó van a magyarban?. Nagy Viktor nagyv@nytud.hu MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Magyar tudomány napja, 2003. 11. 04. Mi a szó?. Hol vannak a szó határai a szövegben? nyitva tartás , de nyitvatartási Hogyan kezeljük a ragozott szavakat?
E N D
Hány szó van a magyarban? Nagy Viktor nagyv@nytud.hu MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Magyar tudomány napja, 2003. 11. 04.
Mi a szó? • Hol vannak a szó határai a szövegben? • nyitva tartás, de nyitvatartási • Hogyan kezeljük a ragozott szavakat? • embert, emberekkel, embereimmel… • Hogyan kezeljük a képzett szavakat? • emberes, emberesedik, emberség, emberiség... • Két szó-e a költ a pénzt költ és a verset költ környezetben? • Külön szó-e a vakarózik és a vakaródzik?
Hány szó van a szövegben? „Száll a madár ágról ágra Száll az ének szájról szájra”
Hány szó van a szövegben?Szóelőfordulások „[1]Száll [2]a [3]madár [4]ágról [5]ágra [6]Száll [7]az [8]ének [9]szájról [10]szájra”
Hány szó van a szövegben?Szóalakok „[1]Száll [2]a [3]madár [4]ágról [5]ágra Száll[6]az [7]ének [8]szájról [9]szájra”
Hány szó van a szövegben?Szótári szók „[1]Száll [2]a [3]madár [4]ágról ágra Száll[5]az [6]ének [7]szájról szájra”
További problémák • Mi számít egy adott nyelv szavának? • Ismeret vagy használat? • Köznyelven kívüli területek (tudományos, szleng stb.)? • Idegen szavak? • Elavult szavak? • Számnevek… (végtelen sok?) • Milyen módszerrel számoljuk meg a nyelv szavait?
Számlálás korpusszal • A korpusz a nyelvhasználat mintája • Magyar Nemzeti Szövegtár – az írott nyelv korpusza • Mérete: 150 millió szövegszó • Kb. 1 700 000 szótári szót tartalmaz • ááááááááá is benne van • Kb. 250 000 szótári szó legalább ötször • zúzapörkölt kimarad
A szószám növekedése a minta növelésével • A tapasztalat szerint nincs felső korlát. • Potenciálisan végtelen sok szó van
Hogyan lehetséges ez? • Új szavak korlát nélkül keletkezhetnek. • Produktív szóalkotási műveletek • Szóképzés: rozsda+ság → rozsdaság • Összetétel: váll + vonal → vállvonal • Elvonás: gépírás, gépíró → gépír • Kölcsönzés: mikrocsip, büdzsé • Régi alak új jelentést kap: egér, akció • …
olvasás olvasási olvasásilag olvasat olvasati olvasatlan olvasatlanul olvasatú olvasgat olvasgatás olvashatatlan olvashatatlanság olvashatatlanul … olvasásértés olvasás-írás olvasáskészség olvasáskultúra olvasáskutató olvasásmód olvasásoktatás olvasás-szövegértés olvasástanítás olvasástanulás olvasástudás olvasászavar olvasásszociológia … olvas-ból alkotott szavak az MNSZ-ben
Konklúzió • A produktív szóalkotás miatt a szókincs potenciálisan végtelen. • A szóalkotás folytonosan zajlik, lehetetlen maradéktalanul összegyűjteni az új szavakat. • A nyelv szavainak száma ezért nem meghatározható.