250 likes | 389 Views
Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd. Jiří Milička Ústav s rovnávací jazykovědy FF UK. Úvod. Definice nejsou libovolné Systém klasifikován obvykle tak aby: A) konvenoval lidské mysli B) daly se dobře testovat hypotézy. Kvaternity.
E N D
Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd. Jiří Milička Ústav srovnávací jazykovědy FF UK
Úvod • Definice nejsou libovolné • Systém klasifikován obvykle tak aby: A) konvenoval lidské mysli B) daly se dobře testovat hypotézy
Kvaternity Tedy rozdělení podle dvou nezávislých distinktivních rysů
V lingvistice • Oblíbenost „binárních opozic“ v PLKu se časově shoduje s X2 a s Fisherovým testem • Přesto Fisherův test v lingvistice příliš nezdomácněl
Naivní interpretace: bysme je v mluveném jazyce běžnější než bychom, v psaném je tomu obráceně. – co když je to náhoda? • Statisticky testovatelná interpretace: pravděpodobnost, že příslušnost k těmto dvěma korpusům neovlivňuje distribuci bychom / bysme je menší než 0.00001 (podle Fisherova testu) • Co když nám to nestačí?
Fisherův test a chí kvadrát nám nestačí i v mnoha jiných případech • Jak se vyskytuje slovo ona v levém bezprostředním okolí okolí slova je (SYN 2010) • Pravděpodobnost, že je tahle tabulka náhodná je také menší než 0,00001, což nám ale jenom řekne, že ta slova souvisí, ale neřekne nám to, jak moc • Proto je tolik (často ad hoc) metrik pro výpočet „kolokability“
Fisherův test nám obzvlášť nepomůže, když budeme chtít porovnávat více hodnot – třeba kolokabilitu slova ona s kolokabilitou slova on • Bylo by to prostě porovnávání dvou velmi malých čísel, které by nemělo praktický význam – nechci vědět, jak se liší pravděpodobnost, že nemám náhodná data, ale jak se liší distribuce s přihlédnutím k tomu, jestli ta data třeba nejsou náhodná.
Poslední příklad: chci vědět, jak moc je slovo „river“ frekventovanější v románu The last ofthemohicans než v románu TheDeerslayer • p<0,0001 (Fishersexact test) – dobře je to disproporční. Ale jak moc je to disproporční?
Změřeno na milionu náhodně permutovaných multimnožin odpovídajících spojení textů Posledního Mohikána a Lovce jelenů Není všechno normální distribuce, co má zvonovitou křivku.
Model N1….. Celkový počet tokenů v textu 1 f1…… absolutní frekvence daného typu v textu 1
Confidence interval • Konfidenční interval (na určité hladině splehlivostiα) • Nakousla Karolína na minulém Žďárku • Definice: “a confidence interval is an interval in which a measurement or trial falls corresponding to a given probability” (Mathworld) Pro představu:
Horní limit (UL) a dolní limit (LL) konfidenčního intervalu na hladině α. • Minimal Ratio (MR): Když spadne naměřená hodnota mezi dolní a horní limit, tak nemůžeme říct, že se liší od předpokládané. Když spadne do intervalu nad horní limit, tak ji budeme porovnávat s horním limitem, když pod spodní limit, tak ji budeme porovnávat s dolním limitem
Vraťme se ke slovu „river“, které má v Posledním Mohikánovi frekvenci 53 a tedy spadá nad horní mez konfidenčního intervalu (44) – nám dokonce spadl mimo graf
Minimální poměr tedy vypočítáme tak, že naměřenou hodnotu podělíme horním limitem konfidenčního intervalu MR(95 %)=53/44=1,204545
Praktická ukázka (keywords) The Last oftheMohicans versus TheDeerslayer
Alice's Adventures in Wonderland versus The Last oftheMohicans
Vyjde v CzechandSlovakLinguisticReview: Minimal Ratio: AnExactMetricforKeywords, Collocationsetc.
Další literatura • Barnard, G. A. (1947). Significance Tests for 2×2 Tables. Biometrika 34 (1/2)pp. 123–138. • Fisher, R. A. (1922). On the Interpretation of χ2 from Contingency Tables, and the Calculation of P. Journal of the Royal Statistical Society, pp. 87–94. • Milička, J. (2009). Type-token & Hapax-token Relation: A Combinatorial Model. Glottotheory. International Journal of Theoretical Linguistics 2/1pp. 99–110. • Oakes, M. P. (1998). Statistics for CorpusLinguistics. Edinburgh: Edinburgh University Press. • Weisstein, E. W. (2012). Confidence Interval. [online] .Cit 2012-10-28. MathWorld – A Wolfram Web. Resource: http://mathworld.wolfram.com/ConfidenceInterval.html • Yates, F. (1984). Tests of Significance for 2 × 2 Contingency Tables. Journal of the Royal Statistical Society. Series A (General) , pp. 426–463.