190 likes | 302 Views
コーパス言語学実践. 2006 年度 2 学期 第 6 回. 本日の内容. 前回までのまとめ 今現在の状態の確認 追いついていない人→追いつく Excel への読み込み 分析1 品詞構成比率の計算. 前回までの確認. cabocha の利用で文節を作る y:corpus>CaboChabincabocha –I0 –O2 gingatetsudo 05 .txt > gignatetsudo 06 .txt. 全部 1 行で記す! オプションなどの間には空白を入れること!. -I0 アイのゼロ –O2 オーの 2.
E N D
コーパス言語学実践 2006年度2学期 第6回
本日の内容 • 前回までのまとめ • 今現在の状態の確認 • 追いついていない人→追いつく • Excelへの読み込み • 分析1 • 品詞構成比率の計算
前回までの確認 • cabochaの利用で文節を作る y:\corpus>CaboCha\bin\cabocha–I0 –O2 gingatetsudo05.txt > gignatetsudo06.txt 全部1行で記す! オプションなどの間には空白を入れること! -I0 アイのゼロ –O2 オーの2
前回までの確認(文節の中から自立語を取り出す)前回までの確認(文節の中から自立語を取り出す) • tangotoridasi.plの利用の前に • 文字コードをutf-8というコードに変換 • *06.txtの文字コードをutf-8にしておく必要あり. ●やり方1:TeraPadで*06.txtを開く. [ファイル]→[漢字改行コード指定保存]→ 漢字コードUTF-8 改行コードCR+LF の状態で保存! ●やり方2:メモ帳で*06.txtを開く. [ファイル]→[名前を付けて保存] 文字コード(E): UTF-8 にして保存!
前回までの確認(文節の中から自立語を取り出す)前回までの確認(文節の中から自立語を取り出す) • tangotoridasi.plの利用 y:\corpus>perl –s tangotoridasi.pl –fn=“gingatetsudo” < gingatetsudono_yoru06.txt > gingatetsudono_yoru07.txt 見出し語;品詞;0;表層形\tヨミ\t基本形\t品詞..........*;出展 全部 1行に書く!! ここは出展情報なので自由に記述してよい(どの作品か分かる程度)
前回までの確認(もう少し整形を) • seikei01.pl をダウンロード y:\corpus > perl seikei01.pl < gingatetsudono_yoru07.txt > gingatetsudono_yoru08.txt これにより, 見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t 出展 (ここで \t はタブ記号を表す)
前回までの確認 • seikei01.plまでの処理を行う *08.txt が完成 • 見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t 出展 • (ここで \t はタブ記号を表す)
Excelでの読み込み • MS-Excelで作成したデータを読み込む [スタート]→[すべてのプログラム]→[Microsoft Office]→[Microsoft Office Excel 2003] 起動したら,ファイル→開く→ gingatetsudono_yoru08.txt を選ぶ
Excelでの読み込み(2) • UTF-8 • カンマやタブ などの区切り文字 ...を選ぶ 次へ
Excelでの読み込み(3) • 次の画面では タブのチェックを 確認 次へ
Excelで読み込む(4) • そのまま 完了を押す ちゃんと読み込まれることを確認!
分析1(品詞構成比率) • Excelを使って品詞ごとの数を数える • 品詞構成比率を計算する • この作業をする
品詞構成比率(2) • まずは各テキストごとの各品詞ごとの数を数える Excelに読み込んだファイル ここをクリック
品詞構成比率(3) • まずは各テキストごとの各品詞ごとの数を数える Excelに読み込んだファイル ここをクリック
品詞構成比率(4) • まずは各テキストごとの各品詞ごとの数を数える Excelに読み込んだファイル 「データ」→「フィルタ」→「オートフィルタ」
品詞構成比率(5) • まずは各テキストごとの各品詞ごとの数を数える Excelに読み込んだファイル 名詞を選ぶ
品詞構成比率(6) • まずは各テキストごとの各品詞ごとの数を数える Excelに読み込んだファイル 名詞をだけが選ばれる
品詞構成比率(7) • まずは各テキストごとの各品詞ごとの数を数える 品詞構成を計算しよう
品詞構成比率2(1) • 先ほどは,品詞のカウントが延べ語数だった. • 今度は異なり語数でカウントしてみる. →次回にするので,方法を考えてみよう.