470 likes | 577 Views
コーパス言語学入門. 2006 年 1 学期 第 9 回. 本日の内容. 前回のおさらい 差異係数 χ2 乗検定. 出現頻度の差の有意差( 1 ). コーパスを使って,語の出現について調べた. 出現頻度の差の有意差( 2 ). コーパスを使って,語の出現について調べた →差があった. 出現頻度の差の有意差( 3 ). コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の出現回数に差があった.. 出現頻度の差の有意差( 4 ). コーパスを使って,語の出現について調べた
E N D
コーパス言語学入門 2006年1学期 第9回
本日の内容 • 前回のおさらい • 差異係数 • χ2乗検定
出現頻度の差の有意差(1) • コーパスを使って,語の出現について調べた
出現頻度の差の有意差(2) • コーパスを使って,語の出現について調べた →差があった
出現頻度の差の有意差(3) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の出現回数に差があった.
出現頻度の差の有意差(4) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の出現回数に差があった. • 有意な(意味のある)差といえるか? • それとも,そのくらいの差には意味がないか.
出現頻度の差の有意差(5) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の出現回数に差があった. • 有意な(意味のある)差といえるか? • それとも,そのくらいの差には意味がないか. →検定を行う
出現頻度の差の有意差(6) • Hofland & Johansson(1982) Word frequency in British and American Englishを例に説明 • イギリス英語とアメリカ英語の語彙頻度
Hofland & Johansson(1982)の例(1) • イギリス英語とアメリカ英語の語彙頻度 対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目
Hofland & Johansson(1982)の例(2) • イギリス英語とアメリカ英語の語彙頻度 対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目 あまり頻度のない語では調査する意味がない
Hofland & Johansson(1982)の例(3) • イギリス英語とアメリカ英語の語彙頻度 対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目 特定のテキストにしか出てこない語では一般性に欠ける あまり頻度のない語では調査する意味がない
Hofland & Johansson(1982)の例(4) LOB Brown 差 差異係数 adjustment 18 35 -17 -0.32c adjustments 3 20 -17 -0.73a administered 13 14 -1 -0.03 administration 68 161 -93 -0.40a administrative 42 53 -11 -0.11 administrator 6 15 -9 -0.42c administrators 10 5 5 0.33 admirable 20 10 10 0.33
差異係数(1) LOB Brown 差 差異係数 adjustment 18 35 -17 -0.32c adjustments 3 20 -17 -0.73a administered 13 14 -1 -0.03 administration 68 161 -93 -0.40a administrative 42 53 -11 -0.11 administrator 6 15 -9 -0.42c administrators 10 5 5 0.33 admirable 20 10 10 0.33 単なる差だけでなく,差異係数という尺度を用いる
差異係数(2) 差異係数 = (FreqA-FreqB)/(FreqA+FreqB) = (Freq.LOB – Freq.Brown)/ (Freq.LOB + Freq.Brown) Freqは,frequency(出現頻度,出現回数) Freq.LOBはLOBコーパスでの出現頻度 Freq.BrownはBrownコーパスでの出現頻度
差異係数(3) 語iの差異係数 = (FreqAi-FreqBi)/(FreqAi+FreqBi) = (Freq.LOBi – Freq.Browni)/ (Freq.LOBi + Freq.Browni) Freq.LOBiはLOBコーパスでの語iの出現頻度 Freq.BrowniはBrownコーパスでの語iの出現頻度
差異係数(4) • 差異係数は -1 ≦ 差異係数 ≦ 1 となる尺度 という2つのコーパスへの出現の偏り 差異係数=(Freq.LOBi–Freq.Browni)/(Freq.LOBi+Freq.Browni)
差異係数の計算(1) • 差異係数の計算 • adjustment (LOB) 18 (Brown) 35 • adjustments (LOB)3 (Brown) 20 • adjustmentの差異係数 = (18-35) / (18+35) = -17/53 = -0.32 • adjustmentsの差異係数= (3-20) / (3+20) = -17/23 = -0.73
差異係数の計算(2) • administered • LOB 13Brown 14 • administration • LOB 68 Brown 161 の計算を行うこと
差異係数の計算(3) • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う.
次は検定 • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う. 統計の検定にはいろいろな種類がある →χ2検定で統計的有意性があるか検定
χ2乗検定(1) • 観測された頻度と,期待される頻度の依存性をはかる • χ2乗値という値を計算する
χ2乗検定(2) • 観測された頻度と,期待される頻度の依存性をはかる • χ2乗値という値を計算する • 期待された度数(この場合,頻度)と実際に観測された度数(頻度)が一致すると0になる
χ2乗検定(3) • 観測された頻度と,期待される頻度の依存性をはかる • χ2乗値という値を計算する • 期待された度数(この場合,頻度)と実際に観測された度数(頻度)が一致すると0になる • ズレが大きいとχ2乗値も大きくなる
χ2乗検定(4) • 観測された頻度と,期待される頻度の依存性をはかる • χ2乗値という値を計算する • 期待された度数(この場合,頻度)と実際に観測された度数(頻度)が一致すると0になる • ズレが大きいとχ2乗値も大きくなる • χ2乗分布という理論的に考えられた分布と,χ2乗値とを使って,ズレ(差)が大きいかどうかを確かめる.
χ2乗検定(5) • χ2乗検定の計算 • iはコーパス, i=1の時LOB, i=2の時Brownコーパス • Oi はコーパスiでの観測値,つまり出現頻度 • Ei はコーパスiでの期待値,期待される出現頻度
χ2乗検定(6) • 例:adjustmentの出現頻度についての検定 • χ2乗検定:仮説検定 • ① 仮説を立てる • 「帰無仮説(H0)」という仮説を立てる • 「~には差はない」という形になる • H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない
χ2乗検定(7) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • ある主張が正しいということを示すのは大変.
χ2乗検定(8) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • ある主張が正しいということを示すのは大変. • ある主張が正しくないということを示すためには,その主張に反する証拠を1つ示せばよい.
χ2乗検定(9) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • ある主張が正しいということを示すのは大変. • ある主張が正しくないということを示すためには,その主張に反する証拠を1つ示せばよい. • 統計による検定では,わざと主張が正しくない方が好ましい仮説を立てて,それが否定されることを示すという方法が取られる.
χ2乗検定(10) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • 統計による検定では,わざと主張が正しくない方が好ましい仮説を立てて,それが否定されることを示すという方法が取られる. • ここで帰無仮説が否定されると,逆の主張が肯定される
χ2乗検定(11) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • 統計による検定では,わざと主張が正しくない方が好ましい仮説を立てて,それが否定されることを示すという方法が取られる. • ここで帰無仮説が否定されると,逆の主張が肯定される • 帰無仮説が成り立たない場合 (「帰無仮説が棄却された」)
χ2乗検定(12) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • 帰無仮説が成り立たない場合(「棄却された」) →対立仮説 H1:adjustmentの使用頻度はイギリス英語とアメリカ英語で差がある
χ2乗検定(13) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • 帰無仮説が成り立たない場合(「棄却された」) →対立仮説 H1:adjustmentの使用頻度はイギリス英語とアメリカ英語で差がある という仮説がある程度の確率で言えることになる.
χ2乗検定(14) • ② adjustmentのχ2乗値を計算 i=1の時, LOBで18回 O1 = 18 i=2の時,Brown で35回 O2=35
χ2乗検定(15) • ② adjustmentのχ2乗値を計算 i=1の時, LOBで18回 O1 = 18 i=2の時,Brown で35回 O2=35 2つのコーパスのサイズはほぼ同数 出現に有意な差がないとすると 同数出現すると考えるのが自然. 期待値Eは平均として計算することにする.
χ2乗検定(16) • ② adjustmentのχ2乗値を計算 i=1の時, LOBで18回 O1 = 18 i=2の時,Brown で35回 O2=35 期待値Eは平均として計算することにする.
χ2乗検定(17) • ② adjustmentのχ2乗値を計算 i=1の時, LOBで18回 O1 = 18 i=2の時,Brown で35回 O2=35 期待値Eは平均として計算することにする.
χ2乗検定(18) ③χ2分布を見て,χ2値が大きいかどうか調べる → χ2分布表
χ2乗検定(19) ③χ2分布を見て,χ2値が大きいかどうか調べる → χ2分布表 自由度1で5.45 が上回るところを探す. (自由度は変数の数―1, コーパスが2つでi=1,2なので自由度は 2-1=1)
χ2乗検定(20) ③χ2分布を見て,χ2値が大きいかどうか調べる → χ2分布表 自由度1で5.45 が上回るところを探す. (自由度は変数の数―1, コーパスが2つでi=1,2なので自由度は 2-1=1) 分布表によると, 確率レベル0.05の時,3.84を上回っている 0.01の時,6.63なので下回る.
χ2乗検定(21) ③χ2分布を 確率レベル0.05の時,3.84を上回っている 0.01の時,6.63なので下回る. adjustmentでの出現 χ2値=5.45
χ2乗検定(22) ③χ2分布を 確率レベル0.05の時,3.84を上回っている 0.01の時,6.63なので下回る. adjustmentでの出現 χ2値=5.45 0~2.71の値になる確率は90% 0~3.84の値になる確率は95% 0~6.63の値になる確率は99%
χ2乗検定(23) ③χ2分布を 確率レベル0.05の時,3.84を上回っている 0.01の時,6.63なので下回る. adjustmentでの出現 χ2値=5.45 0~2.71の値になる確率は90% 0~3.84の値になる確率は95% 0~6.63の値になる確率は99% χ2値が5.45ということは3.84(5%)~6.63(1%)の間にある.→ 有意水準5%で,めったに起こらない.
χ2乗検定(24) 例:adjustmentの出現の仕方(差)は,めったに起こらないことである(100回のうち5回以下) χ2値が5.45ということは3.84(5%)~6.63(1%)の間にある.→ 有意水準5%で,めったに起こらない.
χ2乗検定(25) 例:adjustmentの出現の仕方(差)は,めったに起こらないことである(100回のうち5回以下) 有意水準5%で,帰無仮説が棄却され,差には意味がある χ2値が5.45ということは3.84(5%)~6.63(1%)の間にある.→ 有意水準5%で,めったに起こらない.
確率レベル,優位水準 確率レベル 0.10...100回に10回起こりうるとする確率 α 0.05...100回に 5回起こりうるとする確率 0.01...100回に 1回起こりうるとする確率 • 有意水準:よく起こることと,めったに起こらないことを,どこを基準に判断しているかという水準. • 5%か1%が伝統的に有意水準. • 5%:出現確率が5%より大きければよく起こる. ↓ならめったに起こらない • 1%:出現確率が5%より大きければよく起こる. ↓ならめったに起こらない • 5%~10%:「有意傾向」にあると考えるのが一般的.
本日はここまで • 時間があれば, • MS-Excelを起動して,データの入力 LOB Brown 差 差異係数 adjustment 18 35 adjustments 3 20 administered 13 14 administration 68 161 administrative 42 53 administrator 6 15 administrators 10 5 admirable 20 10