Korpusová lingvistika ( 4 ) Základy korpusové statistiky

Korpusová lingvistika (4)Základy korpusové statistiky Jan Radimský FF JU České Budějovice

Základy korpusové statistiky:četnost slov • Statistické metody se v lingvistice objevují teprve s nástupem elektronických korpusů • Výchozí bod: frekvence (četnost výskytu) jednotlivých slov • frekvence = počet výskytů (absolutní fq.) • slovo = tvar n. lemma... • př.: jakou fq. má tvar / lemma „tužka“ v SYN2005? • Frekvence slovních druhů • Kolik je sloves v korpusu Orwell? (malý korpus = rychlejší výsledky) • token / type • Bonito: Konkordance – Statistiky – Frekvenční distribuce • Frekvenční seznam • rank (pozice ve fq. seznamu)

Zipfovy zákony • George Kingsley Zipf: frekvenční distribuce slov v jakémkoli textu má podobný tvar • vztah: frekvence – rank • vztah: počet lemmat – frekvence • Několik málo slov (funkční slova) má velmi vysokou frekvenci • Velmi mnoho slov má minimální frekvenci • „Hapax legomenon“ (pl. hapax legomena) • Vpravo: ilustrace Zipfova zákona (podle Enciclopedia dell’italiano, s. 1400)

Samostatný úkol... Zipfovy zákony • Analýza frekvenčního seznamu sloves z korpusu „Orwell“ • Zkopírujte si frekvenční seznamu do tabulkového kalkulátoru („Excel“ a spol.) • Kolik sloves (tj. lemmat / type) má frekvenci 1,2,3? (Vyjádřeno absolutně a v procentech) • Kolik výskytů mají všechna slovesa dohromady? (tj. všechny tvary, token) • Kolik z toho připadá na 5 nejfrekventovanějších sloves?

Hapaxy • Proč mají některá slova extrémně vysokou / nízkou frekvenci? • Hapaxy (tag=N) • Syn 2005: vemeň, kafeteria, evangelistář, Hutníková, fěrtoch... • Orwell: finesa, nepohodlí, předvolání, brach, kuropění... • Nejfrekventovanější N • Syn 2005: rok, člověk, den, doba, strana, život, země, dítě, místo, ruka, svět, práce, město, žena, muž... • Orwell: Winston, člověk, strana, slovo, tvář, rok, O’Brien, ruka, oko, obrazovka, válka... • Co vyčteme ze seznamu hapaxů a frekventovaných slov? • Pokud porovnáváme dva korpusy...

Srovnávání frekvencí: relativní četnost (frekvence) • Hypotéza: • Lemma „internet“ bude mít v korpusu Syn2009PUB vyšší četnost, než v SYN2000, protože po r. 2000 se o Internetu psalo v novinách více... • Ověření této hypotézy • Absolutní fq. lemmatu „internet“ v obou korpusech: f(x) • Relativní fq. v obou korpusech • vyjádřená v procentech: fR(x)=f(x) / N , kde N je velikost korpusu • vyjádřená např. v počtu výskytů na 1M slov (totéž, ale lze si to lépe představit)

Srovnání fq. lemmatu „internet“ • Mohu udělat závěr, že lemma „internet“ je v korpusu Syn2009PUB 1,5x častější než v korpusu Syn2000? • Mohu tento závěr aplikovat na výchozí hypotézu? • Nikoli: je třeba vzít v úvahu rozdílné složení obou korpusů: Syn2000 obsahuje kromě publicistiky i další typy textů! • Zkontrolujte rozložení tohoto lemmatu v korpusu (konkordance-statistiky-rozložení) • Navrhněte, jak toto ve výpočtu zohlednit • pokud se „internet“ vyskytuje v SYN2000 i jinde než v publicistických textech (a má v korpusu rovnoměrné rozložení) • pokud se vyskytuje pouze v publicistice

... Výsledky pro normální rozložení v korpusu • Ne-publicistika tvoří 40% korpusu SYN2000 • Těchto 40% odečtu od fR i od velikosti korpusu • Výsledek....

Výsledky pro případ, že „internet“ je pouze v publicistice • Velikost korpusu Syn2000 je 100 M, ale moje výskyty jsou koncentrované pouze v 60% korpusu ! • Počet výskytů zůstává • Velikost korpusu snížíme o 40% • Výsledek... výchozí hypotéza je jednoznačně vyvrácena

Souvýskyt dvou jednotek • Druhá oblast aplikace statistiky: souvýskyt dvou jednotek • Jedná se vždy o jednotky v kontextu. Ale: • Jak velký má být kontext? (vzdálenost slov) • V jakých jednotkách má být určen kontext? (pořadí slov, pevná / pružná vzdálenost, lematizace...) • Cvičení: srovnejte kolokáty sloves na pozici 1R • mhouřit, číst, cvičit, vylézt... co nám to říká? • Vyhledejte substantiva, která jsou pravovalenčním doplněním těchto sloves • Jak to udělat, když není korpus syntakticky anotován?

Statistická významnost souvýskytu • Lze statisticky odhadnout, jestli se dvě slova vyskytují spolu „náhodně“, nebo „nápadně často“ • lemma „mhouřit“ – konkordance, statistiky, kolokace (od -5 do +5) • MI score, T-score, abs./rel. frekvence • Rozdíl MI score a T-Score (porovnejte): • Damoklův meč, Ariadnina nit, muří noha • veřejné mínění, vzdušný prostor • volské oko

Kolokační paradigma - analýza • Kolokační paradigma (pozice -1) • řídké slovo: useň • středně běžné slovo: proutek • běžné slovo: nemoc • porovnání synonym: nemoc vs. choroba • porovnání kolokátů na pozici -1 v kontingenční tabulce (parametry: abs.fq., rel.fq., MI-score, T-score)

Komplexní analýza kolokací • průkaz – legitimace – průkazka • adjektivní doplnění: občanský průkaz • substantivní doplnění: průkaz pojištěnce • valence: průkaz + PREP. • polysémie

Korpusová lingvistika ( 4 ) Základy korpusové statistiky

Korpusová lingvistika ( 4 ) Základy korpusové statistiky

Presentation Transcript

Základy informatiky počítačová grafika

Základy informatiky hardware

PRAKTICKÉ PŘÍKLADY URČOVÁNÍ VNĚJŠÍCH VLIVŮ

Úvod do UNIXu

Základy účetnictví

IT Infrastructure Library

Lékařská mikrobiologie pro ZDRL

ÚVOD DO MATEMATICKÉ LOGIKY

Základy excitability NS

Misijná a charitatívna práca

Základy počítačových sietí

ZÁKLADY ELEKTROINŽINIERSTVA

Základy elektrotechniky

Základy marketingu I ng . M onika B řezinová , P h .D.

PRÁVNÍ ÚPRAVA ÚPADKOVÉHO PRÁVA V ČR Mgr. Jan Kozák Krajský soud v Brně

Základy elektrotechniky Elektrotechnologie

Účtování nákladů a výnosů, časové rozlišení „20“

HTML

Základy trestního práva

3. PENÍZE A INFLACE

Dátové sklady

Přípravný kurz k přijímacím zkouškám Základy tyflopedie