1 / 33

コーパス言語学入門

コーパス言語学入門. 第8回. 本日の内容. 前回のおさらい コーパスの利用(実習) JUMAN+KNP のインストール コーパスを使ったデータの分析 出現頻度の差の有意性 差異係数 ( χ 2乗検定). 前回のおさらい. JUMAN のインストール KNP のインストール PATH の設定 + applepie パーザのインストール APP5.9win.zip をダウンロードして解凍. コーパスを利用した言語の分析( 1 ). 言語の使用されている様子を調べる ある単語(表現)がどのような文脈で使用されているか ある単語や表現の出現頻度を数える

varuna
Download Presentation

コーパス言語学入門

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コーパス言語学入門 第8回

  2. 本日の内容 • 前回のおさらい • コーパスの利用(実習) • JUMAN+KNPのインストール • コーパスを使ったデータの分析 • 出現頻度の差の有意性 • 差異係数 • (χ2乗検定)

  3. 前回のおさらい • JUMANのインストール • KNPのインストール • PATHの設定 +applepie パーザのインストール APP5.9win.zipをダウンロードして解凍

  4. コーパスを利用した言語の分析(1) • 言語の使用されている様子を調べる • ある単語(表現)がどのような文脈で使用されているか • ある単語や表現の出現頻度を数える • 出現頻度...ある単語や表現,特徴が実際のコーパスでどのくらい頻繁に現れているか などの操作がコーパスを用いてよく行われる.

  5. コーパスを利用した言語の分析(2) • 得られた大量のデータの観察によって • 言語の特徴を捉える(一般的) • 文体的特徴を捉える(ある特定の分野など) • 比較(言語間,年代間など) などの基本的手法 →数え上げはよく行われる

  6. コーパスを利用した言語の分析(3) • 得られた大量のデータの観察によって • 言語の特徴を捉える(一般的) • 文体的特徴を捉える(ある特定の分野など) • 比較 などの基本的手法 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか?

  7. コーパスを利用した言語の分析(4) • 得られた大量のデータの観察 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか? 何か特徴がありそうな数字が出たとして

  8. コーパスを利用した言語の分析(5) • 得られた大量のデータの観察 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか? →経験的な判断,直感で考えてよいか? 何か特徴がありそうな数字が出たとして

  9. コーパスを利用した言語の分析(6) • 得られた大量のデータの観察 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか? →経験的な判断,直感で考えてよいか?    不十分(客観性に欠ける) 何か特徴がありそうな数字が出たとして

  10. コーパスを利用した言語の分析(7)  数え上げた数字にどれほど意味があるか? →経験的な判断,直感で考えてよいか?       不十分(客観性に欠ける) ↓  何万,何百万,何億という規模のデータを前にして,直感に頼るだけでは,その判断の信頼性は高くない! 何か特徴がありそうな数字が出たとして

  11. コーパスを利用した言語の分析(8)  数え上げた数字にどれほど意味があるか? →経験的な判断,直感で考えてよいか?       不十分(客観性に欠ける) ↓  何万,何百万,何億という規模のデータを前にして,直感に頼るだけでは,その判断の信頼性は高くない! 何か特徴がありそうな数字が出たとして 都合のよいところだけ見ていたり, ちゃんと説明ができていないなど

  12. 都合のよいところだけ見ていたり, ちゃんと説明ができていないなど コーパスを利用した言語の分析(9) 直感に頼るだけでは,信頼性は高くない! →客観的な判断基準を利用

  13. 都合のよいところだけ見ていたり, ちゃんと説明ができていないなど コーパスを利用した言語の分析(10) 直感に頼るだけでは,信頼性は高くない! →客観的な判断基準を利用 ー直感に説得力を持たせる

  14. 都合のよいところだけ見ていたり, ちゃんと説明ができていないなど コーパスを利用した言語の分析(11) 直感に頼るだけでは,信頼性は高くない! →客観的な判断基準を利用 ー直感に説得力を持たせる →統計学的な処理 の登場

  15. 出現頻度の差の有意差(1) • コーパスを使って,語の出現について調べた

  16. 出現頻度の差の有意差(2) • コーパスを使って,語の出現について調べた    →差があった

  17. 出現頻度の差の有意差(3) • コーパスを使って,語の出現について調べた    →差があった  例: 2つのコーパス間に出現する同一語の出現回数に差があった.

  18. 出現頻度の差の有意差(4) • コーパスを使って,語の出現について調べた    →差があった  例: 2つのコーパス間に出現する同一語の出現回数に差があった. • 有意な(意味のある)差といえるか? • それとも,そのくらいの差には意味がないか.

  19. 出現頻度の差の有意差(5) • コーパスを使って,語の出現について調べた    →差があった  例: 2つのコーパス間に出現する同一語の出現回数に差があった. • 有意な(意味のある)差といえるか? • それとも,そのくらいの差には意味がないか.           →検定を行う

  20. 出現頻度の差の有意差(6) • Hofland & Johansson(1982) Word frequency in British and American Englishを例に説明 • イギリス英語とアメリカ英語の語彙頻度

  21. Hofland & Johansson(1982)の例(1) • イギリス英語とアメリカ英語の語彙頻度  対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目

  22. Hofland & Johansson(1982)の例(2) • イギリス英語とアメリカ英語の語彙頻度  対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目 あまり頻度のない語では調査する意味がない

  23. Hofland & Johansson(1982)の例(3) • イギリス英語とアメリカ英語の語彙頻度  対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目 特定のテキストにしか出てこない語では一般性に欠ける あまり頻度のない語では調査する意味がない

  24. Hofland & Johansson(1982)の例(4) LOB Brown 差 差異係数 adjustment 18 35 -17 -0.32c adjustments 3 20 -17 -0.73a administered 13 14 -1 -0.03 administration 68 161 -93 -0.40a administrative 42 53 -11 -0.11 administrator 6 15 -9 -0.42c administrators 10 5 5 0.33 admirable 20 10 10 0.33

  25. 差異係数(1) LOB Brown 差 差異係数 adjustment 18 35 -17 -0.32c adjustments 3 20 -17 -0.73a administered 13 14 -1 -0.03 administration 68 161 -93 -0.40a administrative 42 53 -11 -0.11 administrator 6 15 -9 -0.42c administrators 10 5 5 0.33 admirable 20 10 10 0.33 単なる差だけでなく,差異係数という尺度を用いる

  26. 差異係数(2) 差異係数 = FreqA-FreqB/FreqA+FreqB = Freq.LOB – Freq.Brown/ Freq.LOB + Freq.Brown Freqは,frequency(出現頻度,出現回数) Freq.LOBはLOBコーパスでの出現頻度 Freq.BrownはBrownコーパスでの出現頻度

  27. 差異係数(3) 語iの差異係数 = FreqAi-FreqBi/FreqAi+FreqBi = Freq.LOBi – Freq.Browni/ Freq.LOBi + Freq.Browni Freq.LOBiはLOBコーパスでの語iの出現頻度 Freq.BrowniはBrownコーパスでの語iの出現頻度

  28. 差異係数(4) • 差異係数は -1 ≦ 差異係数 ≦ 1 となる尺度  という2つのコーパスへの出現の偏り 差異係数=Freq.LOBi–Freq.Browni/Freq.LOBi+Freq.Browni

  29. 差異係数の計算(1) • 差異係数の計算 • adjustment (LOB) 18 (Brown) 35 • adjustments (LOB)3 (Brown) 20 • adjustmentの差異係数 = (18-35) / (18+35) = -17/53 = -0.32 • adjustmentsの差異係数= (3-20) / (3+20) = -17/23 = -0.73

  30. 差異係数の計算(2) • administered • LOB 13Brown 14 • administration • LOB 68 Brown 161   の計算を行うこと

  31. 差異係数の計算(3) • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う.

  32. 次は検定 • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う. 統計の検定にはいろいろな種類がある →χ2検定で統計的有意性があるか検定

  33. 本日はここまで • 時間があれば, • MS-Excelを起動して,データの入力 LOB Brown 差 差異係数 adjustment 18 35 adjustments 3 20 administered 13 14 administration 68 161 administrative 42 53 administrator 6 15 administrators 10 5 admirable 20 10

More Related