1 / 77

「茶筌」 / 「南瓜」を用いた 形態素解析・係り受け解析

「茶筌」 / 「南瓜」を用いた 形態素解析・係り受け解析. 浅原正幸(あさはら まさゆき) 工藤拓(くどう たく) 松本裕治(まつもと ゆうじ). 概要. インストール 「茶筌」のインストール 「南瓜」のインストール 環境設定 「茶筌」の使い方 実際に使ってみる カスタマイズ 「南瓜」の使い方 演習 freqt を用いた木構造マイニング 頻出部分木を用いた文分類. 1.1. 「茶筌」のインストール. Administrator もしくは「管理者権限を持ったユーザー」でログオンする. 1.1. 「茶筌」のインストール.

Download Presentation

「茶筌」 / 「南瓜」を用いた 形態素解析・係り受け解析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 「茶筌」/「南瓜」を用いた形態素解析・係り受け解析「茶筌」/「南瓜」を用いた形態素解析・係り受け解析 浅原正幸(あさはら まさゆき) 工藤拓(くどう たく) 松本裕治(まつもと ゆうじ)

  2. 概要 • インストール • 「茶筌」のインストール • 「南瓜」のインストール • 環境設定 • 「茶筌」の使い方 • 実際に使ってみる • カスタマイズ • 「南瓜」の使い方 • 演習 • freqt を用いた木構造マイニング • 頻出部分木を用いた文分類

  3. 1.1. 「茶筌」のインストール • Administrator もしくは「管理者権限を持ったユーザー」でログオンする

  4. 1.1. 「茶筌」のインストール • arch\chasen233_031208.exe を実行する • 以下のような画面が出てくる: • [はい(Y)]を選択

  5. 1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • [Next >]を選択

  6. 1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • Licenseに関する項目を読んで [I accept the agreement] をチェック [Next >]を選択

  7. 1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • [Next >]を選択

  8. 1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • インストールするフォルダを選択し[Next >]を選択

  9. 1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • [Install]を選択

  10. 1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • インストールが完了 • [Finish]を選択

  11. 1.2. 「南瓜」のインストール • arch\cabocha-0.52.exe を実行する • 以下のような画面が出てくる: • [Next >]を選択

  12. 1.2. 「南瓜」のインストール • 以下のような画面が出てくる: • Licenseに関する項目を読んで [I accept the agreement] をチェック [Next >]を選択

  13. 1.2. 「南瓜」のインストール • 以下のような画面が出てくる: • インストールするフォルダを選択し[Next >]を選択

  14. 1.2. 「南瓜」のインストール • 以下のような画面が出てくる: • スタートメニューに作るフォルダ名の指定 • [Next >]を選択

  15. 1.2. 「南瓜」のインストール • 以下のような画面が出てくる: • [Install >]を選択

  16. 1.2. 「南瓜」のインストール • 以下のような画面が出てくる: 「南瓜」を他のユーザーにも使わせたいならば [はい(Y)]を選択

  17. 1.2. 「南瓜」のインストール • 以下のような画面が出てくる: • インストールが完了 • [Finish]を選択

  18. 1.3. 環境設定 • Windows XP の場合 • [コントロールパネル]→[パフォーマンスとメンテナンス]→[システム] • [詳細設定]のタブを選択 • [環境変数] をクリック

  19. 1.3. 環境設定 • [システム環境変数]の Path を選択し、[編集(I)]をクリック • 以下の行を最後尾に付け加える (インストール先を変えた場合には適宜読み替えること) ;c:\Program Files\ChaSen;C:\Program Files\CaboCha\bin [4.1から来た人はここから戻る]

  20. 概要 • インストール • 「茶筌」のインストール • 「南瓜」のインストール • 環境設定 • 「茶筌」の使い方 • 実際に使ってみる • カスタマイズ • 「南瓜」の使い方 • 演習 • freqt を用いた木構造マイニング • 頻出部分木を用いた文分類

  21. 2.1. 実際に使ってみる コマンドプロンプトを立ち上げる • [スタート]→[すべてのプログラム]→[アクセサリ]→[コマンドプロンプト] もしくは • [スタート]→[ファイル名を指定して実行] • 以下のように入力して[OK]

  22. 2.1. 実際に使ってみる • サンプルテキストを解析してみる > chasen (配ったフォルダ)\text\sample.txt キーボードから入力

  23. 2.1. 実際に使ってみる 自由に入力したテキストを解析してみる > notepad とすると[メモ帳]が開きます。自由に日本語文を作成してみてください。 > chasen (保存したテキストファイル名)

  24. 2.2. カスタマイズ • 出力フォーマットを変更する • [メモ帳] などで chasenrc ファイルを編集する > notepad c:\Program Files\ChaSen\dic\chasenrc 項目 (OUTPUT_FORMAT …)をいろいろ変更する

  25. 2.2. カスタマイズ 例)単語のわかち書き (OUTPUT_FORMAT “%m")

  26. 2.2. カスタマイズ 例)単語と読みだけの出力にする (OUTPUT_FORMAT "%m\t%y\n")

  27. 2.2. カスタマイズ 例)単語と品詞だけの出力にする (OUTPUT_FORMAT "%m\t%U(%P-)\n")

  28. 2.2. カスタマイズ • より詳しい説明は マニュアル doc\chasen-2.3.3-j.pdf 1.4 節を参照のこと

  29. 2.2. カスタマイズ • 簡単な分かち書き定義の変更 • 品詞の線形結合を一単語に • [メモ帳] などで chasenrc ファイルを編集する • notepad c:\Program Files\ChaSen\dic\chasenrc 項目 (COMPOSIT_POS …)をいろいろ変更する

  30. 2.2. カスタマイズ 例)数値表現 デフォルトの設定では数字一文字が一単語 > chasen (配ったフォルダ)\text\suuchi.txt

  31. 2.2. カスタマイズ 例)数値表現(続き) chasenrc に以下のように記述 (COMPOSIT_POS ((名詞) (名詞 数) (名詞 接尾 助数詞))) > chasen (配ったフォルダ)\text\suuchi.txt

  32. 2.2. カスタマイズ 例)名詞の線形結合 (COMPOSIT_POS ((名詞) (名詞))) > chasen (配ったフォルダ)\text\kyoto.txt

  33. 2.2. カスタマイズ • より詳しい説明は マニュアル doc\chasen-2.3.3-j.pdf 2 節13 を参照のこと

  34. 2.2. カスタマイズ • 辞書のメンテナンス 「茶筌」辞書に登録されていない語を追加する 手順 • 最新の辞書パッケージを展開する • ユーザー辞書を作成する • 辞書の再コンパイルを行う • chasenrc の変更

  35. 2.2. カスタマイズ • 辞書のメンテナンス • 最新の辞書パッケージを展開する arch\ipadic-sjis-2.7.0.zip を展開する C:\Program Files\ChaSen\dic と入れ換える • 古い \dic を \dic2 としておくとよいでしょう • 展開されたフォルダを \Program Files\ChaSen 以下に移動してフォルダ名を \dic に変更

  36. 2.2. カスタマイズ • 辞書のメンテナンス • ユーザー辞書を作成する メモ帳などで新規ファイル User.dic を作成する #ファイル名は拡張子が .dic であれば何でもよい

  37. 2.2. カスタマイズ • 辞書のメンテナンス • ユーザー辞書を作成する (サンプルファイルが text\User.dic にあります) 活用語でない場合 (品詞 (名詞 一般)) ((見出し語 (ピラティス4000)) (読み ピラティス) (発音 ピラティス) ) 活用語の場合 (品詞 (動詞 自立)) ((見出し語 (あだける 4000)) (読み アダケル) (発音 アダケル) (活用型 一段) ) ※ ピラティス:リハビリ用エクササイズの一種   あだける:播州弁で「おっこちる」

  38. 2.2. カスタマイズ • 辞書のメンテナンス • 辞書の再コンパイル C:\Program Files\ChaSen\dic 以下にある Makefile.bat を実行する

  39. 2.2. カスタマイズ • 辞書のメンテナンス 4. chasenrc の変更 以下の行を変更 (GRAMMAR /usr/local/lib/chasen/dic/ipadic) ↓ ;;(GRAMMAR /usr/local/lib/chasen/dic/ipadic) もしくは (GRAMMAR “c:\\Program Files\\ChaSen\\dic”)

  40. 2.2. カスタマイズ • 辞書のメンテナンス 試しに解析してみる > chasen (配ったフォルダ)\text\adakeru.txt

  41. 概要 • インストール • 「茶筌」のインストール • 「南瓜」のインストール • 環境設定 • 「茶筌」の使い方 • 実際に使ってみる • カスタマイズ • 「南瓜」の使い方 • 演習 • freqt を用いた木構造マイニング • 頻出部分木を用いた文分類

  42. 3. 「南瓜」の使い方 試しに解析してみる > cabocha (配ったフォルダ)\text\sample.txt

  43. 3. 「南瓜」の使い方 -f1 オプション 計算機で扱いやすいフォーマット (京都大学テキストコーパスと同じ形式) > cabocha -f1 (配ったフォルダ)\text\sample.txt

  44. 3. 「南瓜」の使い方 固有表現抽出 > cabocha (配ったフォルダ)\text\koushukai.txt

  45. 3. 「南瓜」の使い方 固有表現抽出 > cabocha -f1 (配ったフォルダ)\text\koushukai.txt

  46. 3. 「南瓜」の使い方 休憩時間前に 4. で使うデータを「南瓜」を使って作成する。 >cabocha -f1 (配ったフォルダ)\text\sanshiro.txt > sanshiro-cab.txt >cabocha -f1 (配ったフォルダ)\text\kokoro.txt > kokoro-cab.txt >cabocha -f1 (配ったフォルダ)\text\hana.txt > hana-cab.txt >cabocha -f1 (配ったフォルダ)\text\rashomon.txt > rashomon-cab.txt 注意: -f1 オプションをつけるのを忘れないでください

  47. 15分休憩 

  48. 概要 • インストール • 「茶筌」のインストール • 「南瓜」のインストール • 環境設定 • 「茶筌」の使い方 • 実際に使ってみる • カスタマイズ • 「南瓜」の使い方 • 演習 • freqt を用いた木構造マイニング • 頻出部分木を用いた文分類

  49. 4.1. freqt を用いた木構造マイニング 木構造マイニング 係り受け解析結果を木構造の集合(森)と考える この中で頻出する部分木構造を取り出す あるテキスト・著者・グループ・分野に特有の言語表現がとりだせる 文分類をするための手ががりを得ることができる

  50. 4.1. freqt を用いた木構造マイニング データ整形: 「南瓜」の出力を S 式(木構造を括弧の入れ子で表現する形式)へと変換 3種類(ngram,dep,dep2)定義 例文:「部屋が急に明るくなった。」 ngram: (~BOS(部屋(が(急(に(明るい(なる(た(。(~EOS))))))))) dep: (~EOS(。(た(なる(明るい(に(急))(が(部屋(~BOS)))))))) dep2: (~EOS(。(た(なる(明るい)(に(急))(が(部屋(~BOS)))))))

More Related