1 / 19

コーパス言語学実践

コーパス言語学実践. 2006 年度 2 学期 第 6 回. 本日の内容. 前回までのまとめ 今現在の状態の確認 追いついていない人→追いつく Excel への読み込み 分析1 品詞構成比率の計算. 前回までの確認. cabocha の利用で文節を作る y:corpus>CaboChabincabocha –I0 –O2 gingatetsudo 05 .txt > gignatetsudo 06 .txt. 全部 1 行で記す! オプションなどの間には空白を入れること!. -I0 アイのゼロ –O2  オーの 2.

kawena
Download Presentation

コーパス言語学実践

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コーパス言語学実践 2006年度2学期 第6回

  2. 本日の内容 • 前回までのまとめ • 今現在の状態の確認 • 追いついていない人→追いつく • Excelへの読み込み • 分析1 • 品詞構成比率の計算

  3. 前回までの確認 • cabochaの利用で文節を作る y:\corpus>CaboCha\bin\cabocha–I0 –O2 gingatetsudo05.txt > gignatetsudo06.txt 全部1行で記す! オプションなどの間には空白を入れること! -I0 アイのゼロ –O2 オーの2

  4. 前回までの確認(文節の中から自立語を取り出す)前回までの確認(文節の中から自立語を取り出す) • tangotoridasi.plの利用の前に • 文字コードをutf-8というコードに変換 • *06.txtの文字コードをutf-8にしておく必要あり. ●やり方1:TeraPadで*06.txtを開く. [ファイル]→[漢字改行コード指定保存]→ 漢字コードUTF-8 改行コードCR+LF  の状態で保存! ●やり方2:メモ帳で*06.txtを開く. [ファイル]→[名前を付けて保存] 文字コード(E): UTF-8 にして保存!

  5. 前回までの確認(文節の中から自立語を取り出す)前回までの確認(文節の中から自立語を取り出す) • tangotoridasi.plの利用 y:\corpus>perl –s tangotoridasi.pl –fn=“gingatetsudo” < gingatetsudono_yoru06.txt > gingatetsudono_yoru07.txt 見出し語;品詞;0;表層形\tヨミ\t基本形\t品詞..........*;出展 全部 1行に書く!! ここは出展情報なので自由に記述してよい(どの作品か分かる程度)

  6. 前回までの確認(もう少し整形を) • seikei01.pl をダウンロード y:\corpus > perl seikei01.pl < gingatetsudono_yoru07.txt > gingatetsudono_yoru08.txt これにより, 見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t 出展 (ここで \t はタブ記号を表す)

  7. 前回までの確認 • seikei01.plまでの処理を行う  *08.txt が完成 • 見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t 出展 • (ここで \t はタブ記号を表す)

  8. Excelでの読み込み • MS-Excelで作成したデータを読み込む [スタート]→[すべてのプログラム]→[Microsoft Office]→[Microsoft Office Excel 2003] 起動したら,ファイル→開く→ gingatetsudono_yoru08.txt を選ぶ

  9. Excelでの読み込み(2) • UTF-8 • カンマやタブ などの区切り文字 ...を選ぶ         次へ

  10. Excelでの読み込み(3) • 次の画面では タブのチェックを 確認       次へ

  11. Excelで読み込む(4) • そのまま   完了を押す ちゃんと読み込まれることを確認!

  12. 分析1(品詞構成比率) • Excelを使って品詞ごとの数を数える • 品詞構成比率を計算する • この作業をする

  13. 品詞構成比率(2) • まずは各テキストごとの各品詞ごとの数を数える Excelに読み込んだファイル ここをクリック

  14. 品詞構成比率(3) • まずは各テキストごとの各品詞ごとの数を数える Excelに読み込んだファイル ここをクリック

  15. 品詞構成比率(4) • まずは各テキストごとの各品詞ごとの数を数える Excelに読み込んだファイル   「データ」→「フィルタ」→「オートフィルタ」

  16. 品詞構成比率(5) • まずは各テキストごとの各品詞ごとの数を数える Excelに読み込んだファイル 名詞を選ぶ

  17. 品詞構成比率(6) • まずは各テキストごとの各品詞ごとの数を数える Excelに読み込んだファイル 名詞をだけが選ばれる

  18. 品詞構成比率(7) • まずは各テキストごとの各品詞ごとの数を数える 品詞構成を計算しよう

  19. 品詞構成比率2(1) • 先ほどは,品詞のカウントが延べ語数だった. • 今度は異なり語数でカウントしてみる. →次回にするので,方法を考えてみよう.

More Related