130 likes | 316 Views
Korpusová lingvistika ( 4 ) Základy korpusové statistiky. Jan Radimský FF JU České Budějovice. Základy korpusové statistiky: četnost slov. Statistické metody se v lingvistice objevují teprve s nástupem elektronických korpusů Výchozí bod: frekvence (četnost výskytu) jednotlivých slov
E N D
Korpusová lingvistika (4)Základy korpusové statistiky Jan Radimský FF JU České Budějovice
Základy korpusové statistiky:četnost slov • Statistické metody se v lingvistice objevují teprve s nástupem elektronických korpusů • Výchozí bod: frekvence (četnost výskytu) jednotlivých slov • frekvence = počet výskytů (absolutní fq.) • slovo = tvar n. lemma... • př.: jakou fq. má tvar / lemma „tužka“ v SYN2005? • Frekvence slovních druhů • Kolik je sloves v korpusu Orwell? (malý korpus = rychlejší výsledky) • token / type • Bonito: Konkordance – Statistiky – Frekvenční distribuce • Frekvenční seznam • rank (pozice ve fq. seznamu)
Zipfovy zákony • George Kingsley Zipf: frekvenční distribuce slov v jakémkoli textu má podobný tvar • vztah: frekvence – rank • vztah: počet lemmat – frekvence • Několik málo slov (funkční slova) má velmi vysokou frekvenci • Velmi mnoho slov má minimální frekvenci • „Hapax legomenon“ (pl. hapax legomena) • Vpravo: ilustrace Zipfova zákona (podle Enciclopedia dell’italiano, s. 1400)
Samostatný úkol... Zipfovy zákony • Analýza frekvenčního seznamu sloves z korpusu „Orwell“ • Zkopírujte si frekvenční seznamu do tabulkového kalkulátoru („Excel“ a spol.) • Kolik sloves (tj. lemmat / type) má frekvenci 1,2,3? (Vyjádřeno absolutně a v procentech) • Kolik výskytů mají všechna slovesa dohromady? (tj. všechny tvary, token) • Kolik z toho připadá na 5 nejfrekventovanějších sloves?
Hapaxy • Proč mají některá slova extrémně vysokou / nízkou frekvenci? • Hapaxy (tag=N) • Syn 2005: vemeň, kafeteria, evangelistář, Hutníková, fěrtoch... • Orwell: finesa, nepohodlí, předvolání, brach, kuropění... • Nejfrekventovanější N • Syn 2005: rok, člověk, den, doba, strana, život, země, dítě, místo, ruka, svět, práce, město, žena, muž... • Orwell: Winston, člověk, strana, slovo, tvář, rok, O’Brien, ruka, oko, obrazovka, válka... • Co vyčteme ze seznamu hapaxů a frekventovaných slov? • Pokud porovnáváme dva korpusy...
Srovnávání frekvencí: relativní četnost (frekvence) • Hypotéza: • Lemma „internet“ bude mít v korpusu Syn2009PUB vyšší četnost, než v SYN2000, protože po r. 2000 se o Internetu psalo v novinách více... • Ověření této hypotézy • Absolutní fq. lemmatu „internet“ v obou korpusech: f(x) • Relativní fq. v obou korpusech • vyjádřená v procentech: fR(x)=f(x) / N , kde N je velikost korpusu • vyjádřená např. v počtu výskytů na 1M slov (totéž, ale lze si to lépe představit)
Srovnání fq. lemmatu „internet“ • Mohu udělat závěr, že lemma „internet“ je v korpusu Syn2009PUB 1,5x častější než v korpusu Syn2000? • Mohu tento závěr aplikovat na výchozí hypotézu? • Nikoli: je třeba vzít v úvahu rozdílné složení obou korpusů: Syn2000 obsahuje kromě publicistiky i další typy textů! • Zkontrolujte rozložení tohoto lemmatu v korpusu (konkordance-statistiky-rozložení) • Navrhněte, jak toto ve výpočtu zohlednit • pokud se „internet“ vyskytuje v SYN2000 i jinde než v publicistických textech (a má v korpusu rovnoměrné rozložení) • pokud se vyskytuje pouze v publicistice
... Výsledky pro normální rozložení v korpusu • Ne-publicistika tvoří 40% korpusu SYN2000 • Těchto 40% odečtu od fR i od velikosti korpusu • Výsledek....
Výsledky pro případ, že „internet“ je pouze v publicistice • Velikost korpusu Syn2000 je 100 M, ale moje výskyty jsou koncentrované pouze v 60% korpusu ! • Počet výskytů zůstává • Velikost korpusu snížíme o 40% • Výsledek... výchozí hypotéza je jednoznačně vyvrácena
Souvýskyt dvou jednotek • Druhá oblast aplikace statistiky: souvýskyt dvou jednotek • Jedná se vždy o jednotky v kontextu. Ale: • Jak velký má být kontext? (vzdálenost slov) • V jakých jednotkách má být určen kontext? (pořadí slov, pevná / pružná vzdálenost, lematizace...) • Cvičení: srovnejte kolokáty sloves na pozici 1R • mhouřit, číst, cvičit, vylézt... co nám to říká? • Vyhledejte substantiva, která jsou pravovalenčním doplněním těchto sloves • Jak to udělat, když není korpus syntakticky anotován?
Statistická významnost souvýskytu • Lze statisticky odhadnout, jestli se dvě slova vyskytují spolu „náhodně“, nebo „nápadně často“ • lemma „mhouřit“ – konkordance, statistiky, kolokace (od -5 do +5) • MI score, T-score, abs./rel. frekvence • Rozdíl MI score a T-Score (porovnejte): • Damoklův meč, Ariadnina nit, muří noha • veřejné mínění, vzdušný prostor • volské oko
Kolokační paradigma - analýza • Kolokační paradigma (pozice -1) • řídké slovo: useň • středně běžné slovo: proutek • běžné slovo: nemoc • porovnání synonym: nemoc vs. choroba • porovnání kolokátů na pozici -1 v kontingenční tabulce (parametry: abs.fq., rel.fq., MI-score, T-score)
Komplexní analýza kolokací • průkaz – legitimace – průkazka • adjektivní doplnění: občanský průkaz • substantivní doplnění: průkaz pojištěnce • valence: průkaz + PREP. • polysémie