1 / 47

コーパス言語学入門

コーパス言語学入門. 2006 年 1 学期 第 9 回. 本日の内容. 前回のおさらい 差異係数 χ2 乗検定. 出現頻度の差の有意差( 1 ). コーパスを使って,語の出現について調べた. 出現頻度の差の有意差( 2 ). コーパスを使って,語の出現について調べた    →差があった. 出現頻度の差の有意差( 3 ). コーパスを使って,語の出現について調べた    →差があった  例: 2つのコーパス間に出現する同一語の出現回数に差があった.. 出現頻度の差の有意差( 4 ). コーパスを使って,語の出現について調べた

elewa
Download Presentation

コーパス言語学入門

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コーパス言語学入門 2006年1学期 第9回

  2. 本日の内容 • 前回のおさらい • 差異係数 • χ2乗検定

  3. 出現頻度の差の有意差(1) • コーパスを使って,語の出現について調べた

  4. 出現頻度の差の有意差(2) • コーパスを使って,語の出現について調べた    →差があった

  5. 出現頻度の差の有意差(3) • コーパスを使って,語の出現について調べた    →差があった  例: 2つのコーパス間に出現する同一語の出現回数に差があった.

  6. 出現頻度の差の有意差(4) • コーパスを使って,語の出現について調べた    →差があった  例: 2つのコーパス間に出現する同一語の出現回数に差があった. • 有意な(意味のある)差といえるか? • それとも,そのくらいの差には意味がないか.

  7. 出現頻度の差の有意差(5) • コーパスを使って,語の出現について調べた    →差があった  例: 2つのコーパス間に出現する同一語の出現回数に差があった. • 有意な(意味のある)差といえるか? • それとも,そのくらいの差には意味がないか.           →検定を行う

  8. 出現頻度の差の有意差(6) • Hofland & Johansson(1982) Word frequency in British and American Englishを例に説明 • イギリス英語とアメリカ英語の語彙頻度

  9. Hofland & Johansson(1982)の例(1) • イギリス英語とアメリカ英語の語彙頻度  対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目

  10. Hofland & Johansson(1982)の例(2) • イギリス英語とアメリカ英語の語彙頻度  対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目 あまり頻度のない語では調査する意味がない

  11. Hofland & Johansson(1982)の例(3) • イギリス英語とアメリカ英語の語彙頻度  対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目 特定のテキストにしか出てこない語では一般性に欠ける あまり頻度のない語では調査する意味がない

  12. Hofland & Johansson(1982)の例(4) LOB Brown 差 差異係数 adjustment 18 35 -17 -0.32c adjustments 3 20 -17 -0.73a administered 13 14 -1 -0.03 administration 68 161 -93 -0.40a administrative 42 53 -11 -0.11 administrator 6 15 -9 -0.42c administrators 10 5 5 0.33 admirable 20 10 10 0.33

  13. 差異係数(1) LOB Brown 差 差異係数 adjustment 18 35 -17 -0.32c adjustments 3 20 -17 -0.73a administered 13 14 -1 -0.03 administration 68 161 -93 -0.40a administrative 42 53 -11 -0.11 administrator 6 15 -9 -0.42c administrators 10 5 5 0.33 admirable 20 10 10 0.33 単なる差だけでなく,差異係数という尺度を用いる

  14. 差異係数(2) 差異係数 = (FreqA-FreqB)/(FreqA+FreqB) = (Freq.LOB – Freq.Brown)/ (Freq.LOB + Freq.Brown) Freqは,frequency(出現頻度,出現回数) Freq.LOBはLOBコーパスでの出現頻度 Freq.BrownはBrownコーパスでの出現頻度

  15. 差異係数(3) 語iの差異係数 = (FreqAi-FreqBi)/(FreqAi+FreqBi) = (Freq.LOBi – Freq.Browni)/ (Freq.LOBi + Freq.Browni) Freq.LOBiはLOBコーパスでの語iの出現頻度 Freq.BrowniはBrownコーパスでの語iの出現頻度

  16. 差異係数(4) • 差異係数は -1 ≦ 差異係数 ≦ 1 となる尺度  という2つのコーパスへの出現の偏り 差異係数=(Freq.LOBi–Freq.Browni)/(Freq.LOBi+Freq.Browni)

  17. 差異係数の計算(1) • 差異係数の計算 • adjustment (LOB) 18 (Brown) 35 • adjustments (LOB)3 (Brown) 20 • adjustmentの差異係数 = (18-35) / (18+35) = -17/53 = -0.32 • adjustmentsの差異係数= (3-20) / (3+20) = -17/23 = -0.73

  18. 差異係数の計算(2) • administered • LOB 13Brown 14 • administration • LOB 68 Brown 161   の計算を行うこと

  19. 差異係数の計算(3) • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う.

  20. 次は検定 • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う. 統計の検定にはいろいろな種類がある →χ2検定で統計的有意性があるか検定

  21. χ2乗検定(1) • 観測された頻度と,期待される頻度の依存性をはかる • χ2乗値という値を計算する

  22. χ2乗検定(2) • 観測された頻度と,期待される頻度の依存性をはかる • χ2乗値という値を計算する • 期待された度数(この場合,頻度)と実際に観測された度数(頻度)が一致すると0になる

  23. χ2乗検定(3) • 観測された頻度と,期待される頻度の依存性をはかる • χ2乗値という値を計算する • 期待された度数(この場合,頻度)と実際に観測された度数(頻度)が一致すると0になる • ズレが大きいとχ2乗値も大きくなる

  24. χ2乗検定(4) • 観測された頻度と,期待される頻度の依存性をはかる • χ2乗値という値を計算する • 期待された度数(この場合,頻度)と実際に観測された度数(頻度)が一致すると0になる • ズレが大きいとχ2乗値も大きくなる • χ2乗分布という理論的に考えられた分布と,χ2乗値とを使って,ズレ(差)が大きいかどうかを確かめる.

  25. χ2乗検定(5) • χ2乗検定の計算 • iはコーパス, i=1の時LOB, i=2の時Brownコーパス • Oi はコーパスiでの観測値,つまり出現頻度 • Ei はコーパスiでの期待値,期待される出現頻度

  26. χ2乗検定(6) • 例:adjustmentの出現頻度についての検定 • χ2乗検定:仮説検定 • ① 仮説を立てる • 「帰無仮説(H0)」という仮説を立てる • 「~には差はない」という形になる • H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない

  27. χ2乗検定(7) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • ある主張が正しいということを示すのは大変.

  28. χ2乗検定(8) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • ある主張が正しいということを示すのは大変. • ある主張が正しくないということを示すためには,その主張に反する証拠を1つ示せばよい.

  29. χ2乗検定(9) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • ある主張が正しいということを示すのは大変. • ある主張が正しくないということを示すためには,その主張に反する証拠を1つ示せばよい. • 統計による検定では,わざと主張が正しくない方が好ましい仮説を立てて,それが否定されることを示すという方法が取られる.

  30. χ2乗検定(10) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • 統計による検定では,わざと主張が正しくない方が好ましい仮説を立てて,それが否定されることを示すという方法が取られる. • ここで帰無仮説が否定されると,逆の主張が肯定される

  31. χ2乗検定(11) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • 統計による検定では,わざと主張が正しくない方が好ましい仮説を立てて,それが否定されることを示すという方法が取られる. • ここで帰無仮説が否定されると,逆の主張が肯定される • 帰無仮説が成り立たない場合   (「帰無仮説が棄却された」)

  32. χ2乗検定(12) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • 帰無仮説が成り立たない場合(「棄却された」) →対立仮説 H1:adjustmentの使用頻度はイギリス英語とアメリカ英語で差がある

  33. χ2乗検定(13) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で差がない • 帰無仮説が成り立たない場合(「棄却された」) →対立仮説 H1:adjustmentの使用頻度はイギリス英語とアメリカ英語で差がある    という仮説がある程度の確率で言えることになる.

  34. χ2乗検定(14) • ② adjustmentのχ2乗値を計算 i=1の時, LOBで18回  O1 = 18 i=2の時,Brown で35回 O2=35

  35. χ2乗検定(15) • ② adjustmentのχ2乗値を計算 i=1の時, LOBで18回  O1 = 18 i=2の時,Brown で35回 O2=35 2つのコーパスのサイズはほぼ同数 出現に有意な差がないとすると 同数出現すると考えるのが自然. 期待値Eは平均として計算することにする.

  36. χ2乗検定(16) • ② adjustmentのχ2乗値を計算 i=1の時, LOBで18回  O1 = 18 i=2の時,Brown で35回 O2=35 期待値Eは平均として計算することにする.

  37. χ2乗検定(17) • ② adjustmentのχ2乗値を計算 i=1の時, LOBで18回  O1 = 18 i=2の時,Brown で35回 O2=35 期待値Eは平均として計算することにする.

  38. χ2乗検定(18) ③χ2分布を見て,χ2値が大きいかどうか調べる → χ2分布表

  39. χ2乗検定(19) ③χ2分布を見て,χ2値が大きいかどうか調べる → χ2分布表 自由度1で5.45 が上回るところを探す.  (自由度は変数の数―1,  コーパスが2つでi=1,2なので自由度は 2-1=1)

  40. χ2乗検定(20) ③χ2分布を見て,χ2値が大きいかどうか調べる → χ2分布表 自由度1で5.45 が上回るところを探す.  (自由度は変数の数―1,  コーパスが2つでi=1,2なので自由度は 2-1=1) 分布表によると, 確率レベル0.05の時,3.84を上回っている 0.01の時,6.63なので下回る.

  41. χ2乗検定(21) ③χ2分布を 確率レベル0.05の時,3.84を上回っている 0.01の時,6.63なので下回る. adjustmentでの出現 χ2値=5.45

  42. χ2乗検定(22) ③χ2分布を 確率レベル0.05の時,3.84を上回っている 0.01の時,6.63なので下回る. adjustmentでの出現 χ2値=5.45 0~2.71の値になる確率は90% 0~3.84の値になる確率は95% 0~6.63の値になる確率は99%

  43. χ2乗検定(23) ③χ2分布を 確率レベル0.05の時,3.84を上回っている 0.01の時,6.63なので下回る. adjustmentでの出現 χ2値=5.45 0~2.71の値になる確率は90% 0~3.84の値になる確率は95% 0~6.63の値になる確率は99% χ2値が5.45ということは3.84(5%)~6.63(1%)の間にある.→ 有意水準5%で,めったに起こらない.

  44. χ2乗検定(24) 例:adjustmentの出現の仕方(差)は,めったに起こらないことである(100回のうち5回以下) χ2値が5.45ということは3.84(5%)~6.63(1%)の間にある.→ 有意水準5%で,めったに起こらない.

  45. χ2乗検定(25) 例:adjustmentの出現の仕方(差)は,めったに起こらないことである(100回のうち5回以下) 有意水準5%で,帰無仮説が棄却され,差には意味がある χ2値が5.45ということは3.84(5%)~6.63(1%)の間にある.→ 有意水準5%で,めったに起こらない.

  46. 確率レベル,優位水準 確率レベル 0.10...100回に10回起こりうるとする確率 α 0.05...100回に 5回起こりうるとする確率 0.01...100回に 1回起こりうるとする確率 • 有意水準:よく起こることと,めったに起こらないことを,どこを基準に判断しているかという水準. • 5%か1%が伝統的に有意水準. • 5%:出現確率が5%より大きければよく起こる. ↓ならめったに起こらない • 1%:出現確率が5%より大きければよく起こる. ↓ならめったに起こらない • 5%~10%:「有意傾向」にあると考えるのが一般的.

  47. 本日はここまで • 時間があれば, • MS-Excelを起動して,データの入力 LOB Brown 差 差異係数 adjustment 18 35 adjustments 3 20 administered 13 14 administration 68 161 administrative 42 53 administrator 6 15 administrators 10 5 admirable 20 10

More Related