Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd.

Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd. Jiří Milička Ústav srovnávací jazykovědy FF UK

Úvod • Definice nejsou libovolné • Systém klasifikován obvykle tak aby: A) konvenoval lidské mysli B) daly se dobře testovat hypotézy

Kvaternity Tedy rozdělení podle dvou nezávislých distinktivních rysů

V lingvistice • Oblíbenost „binárních opozic“ v PLKu se časově shoduje s X2 a s Fisherovým testem • Přesto Fisherův test v lingvistice příliš nezdomácněl

Naivní interpretace: bysme je v mluveném jazyce běžnější než bychom, v psaném je tomu obráceně. – co když je to náhoda? • Statisticky testovatelná interpretace: pravděpodobnost, že příslušnost k těmto dvěma korpusům neovlivňuje distribuci bychom / bysme je menší než 0.00001 (podle Fisherova testu) • Co když nám to nestačí?

Fisherův test a chí kvadrát nám nestačí i v mnoha jiných případech • Jak se vyskytuje slovo ona v levém bezprostředním okolí okolí slova je (SYN 2010) • Pravděpodobnost, že je tahle tabulka náhodná je také menší než 0,00001, což nám ale jenom řekne, že ta slova souvisí, ale neřekne nám to, jak moc • Proto je tolik (často ad hoc) metrik pro výpočet „kolokability“

Fisherův test nám obzvlášť nepomůže, když budeme chtít porovnávat více hodnot – třeba kolokabilitu slova ona s kolokabilitou slova on • Bylo by to prostě porovnávání dvou velmi malých čísel, které by nemělo praktický význam – nechci vědět, jak se liší pravděpodobnost, že nemám náhodná data, ale jak se liší distribuce s přihlédnutím k tomu, jestli ta data třeba nejsou náhodná.

Poslední příklad: chci vědět, jak moc je slovo „river“ frekventovanější v románu The last ofthemohicans než v románu TheDeerslayer • p<0,0001 (Fishersexact test) – dobře je to disproporční. Ale jak moc je to disproporční?

Změřeno na milionu náhodně permutovaných multimnožin odpovídajících spojení textů Posledního Mohikána a Lovce jelenů Není všechno normální distribuce, co má zvonovitou křivku.

Model N1….. Celkový počet tokenů v textu 1 f1…… absolutní frekvence daného typu v textu 1

Confidence interval • Konfidenční interval (na určité hladině splehlivostiα) • Nakousla Karolína na minulém Žďárku • Definice: “a confidence interval is an interval in which a measurement or trial falls corresponding to a given probability” (Mathworld) Pro představu:

Confidencelevelα = 95 %

Horní limit (UL) a dolní limit (LL) konfidenčního intervalu na hladině α. • Minimal Ratio (MR): Když spadne naměřená hodnota mezi dolní a horní limit, tak nemůžeme říct, že se liší od předpokládané. Když spadne do intervalu nad horní limit, tak ji budeme porovnávat s horním limitem, když pod spodní limit, tak ji budeme porovnávat s dolním limitem

Vraťme se ke slovu „river“, které má v Posledním Mohikánovi frekvenci 53 a tedy spadá nad horní mez konfidenčního intervalu (44) – nám dokonce spadl mimo graf

Minimální poměr tedy vypočítáme tak, že naměřenou hodnotu podělíme horním limitem konfidenčního intervalu MR(95 %)=53/44=1,204545

Přesná definice horního limitu UL(α)

Přesná definice dolního limitu LL(α)

Přesná definice minimálního poměru MR(α)

Praktická ukázka (keywords) The Last oftheMohicans versus TheDeerslayer

Alice's Adventures in Wonderland versus The Last oftheMohicans

Vyjde v CzechandSlovakLinguisticReview: Minimal Ratio: AnExactMetricforKeywords, Collocationsetc.

Další literatura • Barnard, G. A. (1947). Significance Tests for 2×2 Tables. Biometrika 34 (1/2)pp. 123–138. • Fisher, R. A. (1922). On the Interpretation of χ2 from Contingency Tables, and the Calculation of P. Journal of the Royal Statistical Society, pp. 87–94. • Milička, J. (2009). Type-token & Hapax-token Relation: A Combinatorial Model. Glottotheory. International Journal of Theoretical Linguistics 2/1pp. 99–110. • Oakes, M. P. (1998). Statistics for CorpusLinguistics. Edinburgh: Edinburgh University Press. • Weisstein, E. W. (2012). Confidence Interval. [online] .Cit 2012-10-28. MathWorld – A Wolfram Web. Resource: http://mathworld.wolfram.com/ConfidenceInterval.html • Yates, F. (1984). Tests of Significance for 2 × 2 Contingency Tables. Journal of the Royal Statistical Society. Series A (General) , pp. 426–463.

Děkuji za pozornost!!!

Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd.

Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd.

Presentation Transcript

MS Office Word 2007/2010

KKI/KPSG1

LEXIKOLÓGIA

KALIGRAM

Fotografie

DRÁMA AKO LITERÁRNY DRUH

Stepenovanje

Zdravo, ja sam mačak Miki i pomoći ću ti da savladaš pisana slova latinice .

Název školy: Základní škola a Mateřská škola Kladno, Vodárenská 2115 Autor: Mgr. Ilona Sadílková

POČETNICE I OBRADA SLOVA

Název školy: Základní škola a Mateřská škola Kladno, Vodárenská 2115

Neziskové občanské sdružení ELEKTROMOBILY marusinec@elektromobily

Vybrané slová po R

Vybrané slová po m

Vianočné zvyky a tradície na Slovensku

Vecn ý popis v MARC21

SLOVNÉ DRUHY

Mokymosi bendradarbiaujant metodo taikymas Slovėnijoje

ARKTIDA

VYJMENOVANÁ SLOVA PO S

Kosmonautika ve službách astronomie

Baroko