770 likes | 976 Views
「茶筌」 / 「南瓜」を用いた 形態素解析・係り受け解析. 浅原正幸(あさはら まさゆき) 工藤拓(くどう たく) 松本裕治(まつもと ゆうじ). 概要. インストール 「茶筌」のインストール 「南瓜」のインストール 環境設定 「茶筌」の使い方 実際に使ってみる カスタマイズ 「南瓜」の使い方 演習 freqt を用いた木構造マイニング 頻出部分木を用いた文分類. 1.1. 「茶筌」のインストール. Administrator もしくは「管理者権限を持ったユーザー」でログオンする. 1.1. 「茶筌」のインストール.
E N D
「茶筌」/「南瓜」を用いた形態素解析・係り受け解析「茶筌」/「南瓜」を用いた形態素解析・係り受け解析 浅原正幸(あさはら まさゆき) 工藤拓(くどう たく) 松本裕治(まつもと ゆうじ)
概要 • インストール • 「茶筌」のインストール • 「南瓜」のインストール • 環境設定 • 「茶筌」の使い方 • 実際に使ってみる • カスタマイズ • 「南瓜」の使い方 • 演習 • freqt を用いた木構造マイニング • 頻出部分木を用いた文分類
1.1. 「茶筌」のインストール • Administrator もしくは「管理者権限を持ったユーザー」でログオンする
1.1. 「茶筌」のインストール • arch\chasen233_031208.exe を実行する • 以下のような画面が出てくる: • [はい(Y)]を選択
1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • [Next >]を選択
1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • Licenseに関する項目を読んで [I accept the agreement] をチェック [Next >]を選択
1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • [Next >]を選択
1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • インストールするフォルダを選択し[Next >]を選択
1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • [Install]を選択
1.1. 「茶筌」のインストール • 以下のような画面が出てくる: • インストールが完了 • [Finish]を選択
1.2. 「南瓜」のインストール • arch\cabocha-0.52.exe を実行する • 以下のような画面が出てくる: • [Next >]を選択
1.2. 「南瓜」のインストール • 以下のような画面が出てくる: • Licenseに関する項目を読んで [I accept the agreement] をチェック [Next >]を選択
1.2. 「南瓜」のインストール • 以下のような画面が出てくる: • インストールするフォルダを選択し[Next >]を選択
1.2. 「南瓜」のインストール • 以下のような画面が出てくる: • スタートメニューに作るフォルダ名の指定 • [Next >]を選択
1.2. 「南瓜」のインストール • 以下のような画面が出てくる: • [Install >]を選択
1.2. 「南瓜」のインストール • 以下のような画面が出てくる: 「南瓜」を他のユーザーにも使わせたいならば [はい(Y)]を選択
1.2. 「南瓜」のインストール • 以下のような画面が出てくる: • インストールが完了 • [Finish]を選択
1.3. 環境設定 • Windows XP の場合 • [コントロールパネル]→[パフォーマンスとメンテナンス]→[システム] • [詳細設定]のタブを選択 • [環境変数] をクリック
1.3. 環境設定 • [システム環境変数]の Path を選択し、[編集(I)]をクリック • 以下の行を最後尾に付け加える (インストール先を変えた場合には適宜読み替えること) ;c:\Program Files\ChaSen;C:\Program Files\CaboCha\bin [4.1から来た人はここから戻る]
概要 • インストール • 「茶筌」のインストール • 「南瓜」のインストール • 環境設定 • 「茶筌」の使い方 • 実際に使ってみる • カスタマイズ • 「南瓜」の使い方 • 演習 • freqt を用いた木構造マイニング • 頻出部分木を用いた文分類
2.1. 実際に使ってみる コマンドプロンプトを立ち上げる • [スタート]→[すべてのプログラム]→[アクセサリ]→[コマンドプロンプト] もしくは • [スタート]→[ファイル名を指定して実行] • 以下のように入力して[OK]
2.1. 実際に使ってみる • サンプルテキストを解析してみる > chasen (配ったフォルダ)\text\sample.txt キーボードから入力
2.1. 実際に使ってみる 自由に入力したテキストを解析してみる > notepad とすると[メモ帳]が開きます。自由に日本語文を作成してみてください。 > chasen (保存したテキストファイル名)
2.2. カスタマイズ • 出力フォーマットを変更する • [メモ帳] などで chasenrc ファイルを編集する > notepad c:\Program Files\ChaSen\dic\chasenrc 項目 (OUTPUT_FORMAT …)をいろいろ変更する
2.2. カスタマイズ 例)単語のわかち書き (OUTPUT_FORMAT “%m")
2.2. カスタマイズ 例)単語と読みだけの出力にする (OUTPUT_FORMAT "%m\t%y\n")
2.2. カスタマイズ 例)単語と品詞だけの出力にする (OUTPUT_FORMAT "%m\t%U(%P-)\n")
2.2. カスタマイズ • より詳しい説明は マニュアル doc\chasen-2.3.3-j.pdf 1.4 節を参照のこと
2.2. カスタマイズ • 簡単な分かち書き定義の変更 • 品詞の線形結合を一単語に • [メモ帳] などで chasenrc ファイルを編集する • notepad c:\Program Files\ChaSen\dic\chasenrc 項目 (COMPOSIT_POS …)をいろいろ変更する
2.2. カスタマイズ 例)数値表現 デフォルトの設定では数字一文字が一単語 > chasen (配ったフォルダ)\text\suuchi.txt
2.2. カスタマイズ 例)数値表現(続き) chasenrc に以下のように記述 (COMPOSIT_POS ((名詞) (名詞 数) (名詞 接尾 助数詞))) > chasen (配ったフォルダ)\text\suuchi.txt
2.2. カスタマイズ 例)名詞の線形結合 (COMPOSIT_POS ((名詞) (名詞))) > chasen (配ったフォルダ)\text\kyoto.txt
2.2. カスタマイズ • より詳しい説明は マニュアル doc\chasen-2.3.3-j.pdf 2 節13 を参照のこと
2.2. カスタマイズ • 辞書のメンテナンス 「茶筌」辞書に登録されていない語を追加する 手順 • 最新の辞書パッケージを展開する • ユーザー辞書を作成する • 辞書の再コンパイルを行う • chasenrc の変更
2.2. カスタマイズ • 辞書のメンテナンス • 最新の辞書パッケージを展開する arch\ipadic-sjis-2.7.0.zip を展開する C:\Program Files\ChaSen\dic と入れ換える • 古い \dic を \dic2 としておくとよいでしょう • 展開されたフォルダを \Program Files\ChaSen 以下に移動してフォルダ名を \dic に変更
2.2. カスタマイズ • 辞書のメンテナンス • ユーザー辞書を作成する メモ帳などで新規ファイル User.dic を作成する #ファイル名は拡張子が .dic であれば何でもよい
2.2. カスタマイズ • 辞書のメンテナンス • ユーザー辞書を作成する (サンプルファイルが text\User.dic にあります) 活用語でない場合 (品詞 (名詞 一般)) ((見出し語 (ピラティス4000)) (読み ピラティス) (発音 ピラティス) ) 活用語の場合 (品詞 (動詞 自立)) ((見出し語 (あだける 4000)) (読み アダケル) (発音 アダケル) (活用型 一段) ) ※ ピラティス:リハビリ用エクササイズの一種 あだける:播州弁で「おっこちる」
2.2. カスタマイズ • 辞書のメンテナンス • 辞書の再コンパイル C:\Program Files\ChaSen\dic 以下にある Makefile.bat を実行する
2.2. カスタマイズ • 辞書のメンテナンス 4. chasenrc の変更 以下の行を変更 (GRAMMAR /usr/local/lib/chasen/dic/ipadic) ↓ ;;(GRAMMAR /usr/local/lib/chasen/dic/ipadic) もしくは (GRAMMAR “c:\\Program Files\\ChaSen\\dic”)
2.2. カスタマイズ • 辞書のメンテナンス 試しに解析してみる > chasen (配ったフォルダ)\text\adakeru.txt
概要 • インストール • 「茶筌」のインストール • 「南瓜」のインストール • 環境設定 • 「茶筌」の使い方 • 実際に使ってみる • カスタマイズ • 「南瓜」の使い方 • 演習 • freqt を用いた木構造マイニング • 頻出部分木を用いた文分類
3. 「南瓜」の使い方 試しに解析してみる > cabocha (配ったフォルダ)\text\sample.txt
3. 「南瓜」の使い方 -f1 オプション 計算機で扱いやすいフォーマット (京都大学テキストコーパスと同じ形式) > cabocha -f1 (配ったフォルダ)\text\sample.txt
3. 「南瓜」の使い方 固有表現抽出 > cabocha (配ったフォルダ)\text\koushukai.txt
3. 「南瓜」の使い方 固有表現抽出 > cabocha -f1 (配ったフォルダ)\text\koushukai.txt
3. 「南瓜」の使い方 休憩時間前に 4. で使うデータを「南瓜」を使って作成する。 >cabocha -f1 (配ったフォルダ)\text\sanshiro.txt > sanshiro-cab.txt >cabocha -f1 (配ったフォルダ)\text\kokoro.txt > kokoro-cab.txt >cabocha -f1 (配ったフォルダ)\text\hana.txt > hana-cab.txt >cabocha -f1 (配ったフォルダ)\text\rashomon.txt > rashomon-cab.txt 注意: -f1 オプションをつけるのを忘れないでください
概要 • インストール • 「茶筌」のインストール • 「南瓜」のインストール • 環境設定 • 「茶筌」の使い方 • 実際に使ってみる • カスタマイズ • 「南瓜」の使い方 • 演習 • freqt を用いた木構造マイニング • 頻出部分木を用いた文分類
4.1. freqt を用いた木構造マイニング 木構造マイニング 係り受け解析結果を木構造の集合(森)と考える この中で頻出する部分木構造を取り出す あるテキスト・著者・グループ・分野に特有の言語表現がとりだせる 文分類をするための手ががりを得ることができる
4.1. freqt を用いた木構造マイニング データ整形: 「南瓜」の出力を S 式(木構造を括弧の入れ子で表現する形式)へと変換 3種類(ngram,dep,dep2)定義 例文:「部屋が急に明るくなった。」 ngram: (~BOS(部屋(が(急(に(明るい(なる(た(。(~EOS))))))))) dep: (~EOS(。(た(なる(明るい(に(急))(が(部屋(~BOS)))))))) dep2: (~EOS(。(た(なる(明るい)(に(急))(が(部屋(~BOS)))))))