1 / 13

Korpusová lingvistika ( 4 ) Základy korpusové statistiky

Korpusová lingvistika ( 4 ) Základy korpusové statistiky. Jan Radimský FF JU České Budějovice. Základy korpusové statistiky: četnost slov. Statistické metody se v lingvistice objevují teprve s nástupem elektronických korpusů Výchozí bod: frekvence (četnost výskytu) jednotlivých slov

yagil
Download Presentation

Korpusová lingvistika ( 4 ) Základy korpusové statistiky

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korpusová lingvistika (4)Základy korpusové statistiky Jan Radimský FF JU České Budějovice

  2. Základy korpusové statistiky:četnost slov • Statistické metody se v lingvistice objevují teprve s nástupem elektronických korpusů • Výchozí bod: frekvence (četnost výskytu) jednotlivých slov • frekvence = počet výskytů (absolutní fq.) • slovo = tvar n. lemma... • př.: jakou fq. má tvar / lemma „tužka“ v SYN2005? • Frekvence slovních druhů • Kolik je sloves v korpusu Orwell? (malý korpus = rychlejší výsledky) • token / type • Bonito: Konkordance – Statistiky – Frekvenční distribuce • Frekvenční seznam • rank (pozice ve fq. seznamu)

  3. Zipfovy zákony • George Kingsley Zipf: frekvenční distribuce slov v jakémkoli textu má podobný tvar • vztah: frekvence – rank • vztah: počet lemmat – frekvence • Několik málo slov (funkční slova) má velmi vysokou frekvenci • Velmi mnoho slov má minimální frekvenci • „Hapax legomenon“ (pl. hapax legomena) • Vpravo: ilustrace Zipfova zákona (podle Enciclopedia dell’italiano, s. 1400)

  4. Samostatný úkol... Zipfovy zákony • Analýza frekvenčního seznamu sloves z korpusu „Orwell“ • Zkopírujte si frekvenční seznamu do tabulkového kalkulátoru („Excel“ a spol.) • Kolik sloves (tj. lemmat / type) má frekvenci 1,2,3? (Vyjádřeno absolutně a v procentech) • Kolik výskytů mají všechna slovesa dohromady? (tj. všechny tvary, token) • Kolik z toho připadá na 5 nejfrekventovanějších sloves?

  5. Hapaxy • Proč mají některá slova extrémně vysokou / nízkou frekvenci? • Hapaxy (tag=N) • Syn 2005: vemeň, kafeteria, evangelistář, Hutníková, fěrtoch... • Orwell: finesa, nepohodlí, předvolání, brach, kuropění... • Nejfrekventovanější N • Syn 2005: rok, člověk, den, doba, strana, život, země, dítě, místo, ruka, svět, práce, město, žena, muž... • Orwell: Winston, člověk, strana, slovo, tvář, rok, O’Brien, ruka, oko, obrazovka, válka... • Co vyčteme ze seznamu hapaxů a frekventovaných slov? • Pokud porovnáváme dva korpusy...

  6. Srovnávání frekvencí: relativní četnost (frekvence) • Hypotéza: • Lemma „internet“ bude mít v korpusu Syn2009PUB vyšší četnost, než v SYN2000, protože po r. 2000 se o Internetu psalo v novinách více... • Ověření této hypotézy • Absolutní fq. lemmatu „internet“ v obou korpusech: f(x) • Relativní fq. v obou korpusech • vyjádřená v procentech: fR(x)=f(x) / N , kde N je velikost korpusu • vyjádřená např. v počtu výskytů na 1M slov (totéž, ale lze si to lépe představit)

  7. Srovnání fq. lemmatu „internet“ • Mohu udělat závěr, že lemma „internet“ je v korpusu Syn2009PUB 1,5x častější než v korpusu Syn2000? • Mohu tento závěr aplikovat na výchozí hypotézu? • Nikoli: je třeba vzít v úvahu rozdílné složení obou korpusů: Syn2000 obsahuje kromě publicistiky i další typy textů! • Zkontrolujte rozložení tohoto lemmatu v korpusu (konkordance-statistiky-rozložení) • Navrhněte, jak toto ve výpočtu zohlednit • pokud se „internet“ vyskytuje v SYN2000 i jinde než v publicistických textech (a má v korpusu rovnoměrné rozložení) • pokud se vyskytuje pouze v publicistice

  8. ... Výsledky pro normální rozložení v korpusu • Ne-publicistika tvoří 40% korpusu SYN2000 • Těchto 40% odečtu od fR i od velikosti korpusu • Výsledek....

  9. Výsledky pro případ, že „internet“ je pouze v publicistice • Velikost korpusu Syn2000 je 100 M, ale moje výskyty jsou koncentrované pouze v 60% korpusu ! • Počet výskytů zůstává • Velikost korpusu snížíme o 40% • Výsledek... výchozí hypotéza je jednoznačně vyvrácena

  10. Souvýskyt dvou jednotek • Druhá oblast aplikace statistiky: souvýskyt dvou jednotek • Jedná se vždy o jednotky v kontextu. Ale: • Jak velký má být kontext? (vzdálenost slov) • V jakých jednotkách má být určen kontext? (pořadí slov, pevná / pružná vzdálenost, lematizace...) • Cvičení: srovnejte kolokáty sloves na pozici 1R • mhouřit, číst, cvičit, vylézt... co nám to říká? • Vyhledejte substantiva, která jsou pravovalenčním doplněním těchto sloves • Jak to udělat, když není korpus syntakticky anotován?

  11. Statistická významnost souvýskytu • Lze statisticky odhadnout, jestli se dvě slova vyskytují spolu „náhodně“, nebo „nápadně často“ • lemma „mhouřit“ – konkordance, statistiky, kolokace (od -5 do +5) • MI score, T-score, abs./rel. frekvence • Rozdíl MI score a T-Score (porovnejte): • Damoklův meč, Ariadnina nit, muří noha • veřejné mínění, vzdušný prostor • volské oko

  12. Kolokační paradigma - analýza • Kolokační paradigma (pozice -1) • řídké slovo: useň • středně běžné slovo: proutek • běžné slovo: nemoc • porovnání synonym: nemoc vs. choroba • porovnání kolokátů na pozici -1 v kontingenční tabulce (parametry: abs.fq., rel.fq., MI-score, T-score)

  13. Komplexní analýza kolokací • průkaz – legitimace – průkazka • adjektivní doplnění: občanský průkaz • substantivní doplnění: průkaz pojištěnce • valence: průkaz + PREP. • polysémie

More Related