330 likes | 447 Views
コーパス言語学入門. 第8回. 本日の内容. 前回のおさらい コーパスの利用(実習) JUMAN+KNP のインストール コーパスを使ったデータの分析 出現頻度の差の有意性 差異係数 ( χ 2乗検定). 前回のおさらい. JUMAN のインストール KNP のインストール PATH の設定 + applepie パーザのインストール APP5.9win.zip をダウンロードして解凍. コーパスを利用した言語の分析( 1 ). 言語の使用されている様子を調べる ある単語(表現)がどのような文脈で使用されているか ある単語や表現の出現頻度を数える
E N D
コーパス言語学入門 第8回
本日の内容 • 前回のおさらい • コーパスの利用(実習) • JUMAN+KNPのインストール • コーパスを使ったデータの分析 • 出現頻度の差の有意性 • 差異係数 • (χ2乗検定)
前回のおさらい • JUMANのインストール • KNPのインストール • PATHの設定 +applepie パーザのインストール APP5.9win.zipをダウンロードして解凍
コーパスを利用した言語の分析(1) • 言語の使用されている様子を調べる • ある単語(表現)がどのような文脈で使用されているか • ある単語や表現の出現頻度を数える • 出現頻度...ある単語や表現,特徴が実際のコーパスでどのくらい頻繁に現れているか などの操作がコーパスを用いてよく行われる.
コーパスを利用した言語の分析(2) • 得られた大量のデータの観察によって • 言語の特徴を捉える(一般的) • 文体的特徴を捉える(ある特定の分野など) • 比較(言語間,年代間など) などの基本的手法 →数え上げはよく行われる
コーパスを利用した言語の分析(3) • 得られた大量のデータの観察によって • 言語の特徴を捉える(一般的) • 文体的特徴を捉える(ある特定の分野など) • 比較 などの基本的手法 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか?
コーパスを利用した言語の分析(4) • 得られた大量のデータの観察 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか? 何か特徴がありそうな数字が出たとして
コーパスを利用した言語の分析(5) • 得られた大量のデータの観察 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか? →経験的な判断,直感で考えてよいか? 何か特徴がありそうな数字が出たとして
コーパスを利用した言語の分析(6) • 得られた大量のデータの観察 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか? →経験的な判断,直感で考えてよいか? 不十分(客観性に欠ける) 何か特徴がありそうな数字が出たとして
コーパスを利用した言語の分析(7) 数え上げた数字にどれほど意味があるか? →経験的な判断,直感で考えてよいか? 不十分(客観性に欠ける) ↓ 何万,何百万,何億という規模のデータを前にして,直感に頼るだけでは,その判断の信頼性は高くない! 何か特徴がありそうな数字が出たとして
コーパスを利用した言語の分析(8) 数え上げた数字にどれほど意味があるか? →経験的な判断,直感で考えてよいか? 不十分(客観性に欠ける) ↓ 何万,何百万,何億という規模のデータを前にして,直感に頼るだけでは,その判断の信頼性は高くない! 何か特徴がありそうな数字が出たとして 都合のよいところだけ見ていたり, ちゃんと説明ができていないなど
都合のよいところだけ見ていたり, ちゃんと説明ができていないなど コーパスを利用した言語の分析(9) 直感に頼るだけでは,信頼性は高くない! →客観的な判断基準を利用
都合のよいところだけ見ていたり, ちゃんと説明ができていないなど コーパスを利用した言語の分析(10) 直感に頼るだけでは,信頼性は高くない! →客観的な判断基準を利用 ー直感に説得力を持たせる
都合のよいところだけ見ていたり, ちゃんと説明ができていないなど コーパスを利用した言語の分析(11) 直感に頼るだけでは,信頼性は高くない! →客観的な判断基準を利用 ー直感に説得力を持たせる →統計学的な処理 の登場
出現頻度の差の有意差(1) • コーパスを使って,語の出現について調べた
出現頻度の差の有意差(2) • コーパスを使って,語の出現について調べた →差があった
出現頻度の差の有意差(3) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の出現回数に差があった.
出現頻度の差の有意差(4) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の出現回数に差があった. • 有意な(意味のある)差といえるか? • それとも,そのくらいの差には意味がないか.
出現頻度の差の有意差(5) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の出現回数に差があった. • 有意な(意味のある)差といえるか? • それとも,そのくらいの差には意味がないか. →検定を行う
出現頻度の差の有意差(6) • Hofland & Johansson(1982) Word frequency in British and American Englishを例に説明 • イギリス英語とアメリカ英語の語彙頻度
Hofland & Johansson(1982)の例(1) • イギリス英語とアメリカ英語の語彙頻度 対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目
Hofland & Johansson(1982)の例(2) • イギリス英語とアメリカ英語の語彙頻度 対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目 あまり頻度のない語では調査する意味がない
Hofland & Johansson(1982)の例(3) • イギリス英語とアメリカ英語の語彙頻度 対象コーパス:2つ • LOBコーパス=イギリス英語 • Brownコーパス=アメリカ英語 • 対象単語に関する条件 • どちらか1つのコーパスで10回以上出現 かつ • 5テキスト以上出現する語だけに注目 特定のテキストにしか出てこない語では一般性に欠ける あまり頻度のない語では調査する意味がない
Hofland & Johansson(1982)の例(4) LOB Brown 差 差異係数 adjustment 18 35 -17 -0.32c adjustments 3 20 -17 -0.73a administered 13 14 -1 -0.03 administration 68 161 -93 -0.40a administrative 42 53 -11 -0.11 administrator 6 15 -9 -0.42c administrators 10 5 5 0.33 admirable 20 10 10 0.33
差異係数(1) LOB Brown 差 差異係数 adjustment 18 35 -17 -0.32c adjustments 3 20 -17 -0.73a administered 13 14 -1 -0.03 administration 68 161 -93 -0.40a administrative 42 53 -11 -0.11 administrator 6 15 -9 -0.42c administrators 10 5 5 0.33 admirable 20 10 10 0.33 単なる差だけでなく,差異係数という尺度を用いる
差異係数(2) 差異係数 = FreqA-FreqB/FreqA+FreqB = Freq.LOB – Freq.Brown/ Freq.LOB + Freq.Brown Freqは,frequency(出現頻度,出現回数) Freq.LOBはLOBコーパスでの出現頻度 Freq.BrownはBrownコーパスでの出現頻度
差異係数(3) 語iの差異係数 = FreqAi-FreqBi/FreqAi+FreqBi = Freq.LOBi – Freq.Browni/ Freq.LOBi + Freq.Browni Freq.LOBiはLOBコーパスでの語iの出現頻度 Freq.BrowniはBrownコーパスでの語iの出現頻度
差異係数(4) • 差異係数は -1 ≦ 差異係数 ≦ 1 となる尺度 という2つのコーパスへの出現の偏り 差異係数=Freq.LOBi–Freq.Browni/Freq.LOBi+Freq.Browni
差異係数の計算(1) • 差異係数の計算 • adjustment (LOB) 18 (Brown) 35 • adjustments (LOB)3 (Brown) 20 • adjustmentの差異係数 = (18-35) / (18+35) = -17/53 = -0.32 • adjustmentsの差異係数= (3-20) / (3+20) = -17/23 = -0.73
差異係数の計算(2) • administered • LOB 13Brown 14 • administration • LOB 68 Brown 161 の計算を行うこと
差異係数の計算(3) • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う.
次は検定 • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う. 統計の検定にはいろいろな種類がある →χ2検定で統計的有意性があるか検定
本日はここまで • 時間があれば, • MS-Excelを起動して,データの入力 LOB Brown 差 差異係数 adjustment 18 35 adjustments 3 20 administered 13 14 administration 68 161 administrative 42 53 administrator 6 15 administrators 10 5 admirable 20 10