200 likes | 345 Views
コーパス言語学入門. 2007 年度 1 学期 第 7 回. 本日の内容. コーパスの利用 コーパスを作るときに利用するツール 作成したコーパスの利用例 このときの利用ツールの紹介 本日は,実習 ツールのインストール 有名なツールを実際に使ってみる. コーパスの利用. コーパスを作成する場合のツール 形態素解析 構文解析 KNP が Web 上で使えないのでインストール JUMAN Ver.5.1 ( Windows 版)をダウンロード KNP Ver.2.0(Windows 版)をダウンロード 新聞記事を持って来て形態素,構文解析.
E N D
コーパス言語学入門 2007年度1学期 第7回
本日の内容 • コーパスの利用 • コーパスを作るときに利用するツール • 作成したコーパスの利用例 • このときの利用ツールの紹介 本日は,実習 • ツールのインストール • 有名なツールを実際に使ってみる
コーパスの利用 • コーパスを作成する場合のツール • 形態素解析 • 構文解析 • KNPがWeb上で使えないのでインストール • JUMANVer.5.1(Windows版)をダウンロード • KNP Ver.2.0(Windows版)をダウンロード • 新聞記事を持って来て形態素,構文解析
ツールをインストールして利用(1) • JUMANとKNPをインストールして使用 • JUMANのインストール • ダウンロード • インストール先: Y:\juman • KNPのダウンロード • ダウンロード • インストール先: Y:\knp
ツールをインストールして利用(2) • PATHの追加 • Windows上の PATH設定に juman,knpの ためのパス(経路) を追加
ツールをインストールして利用(3) • 詳細設定を 選んで, 「環境変数」を クリック
ツールをインストールして利用(4) • PATHの「編集」を クリックし,「ユーザー 変数の編集」の変数値 にパスを追加する 出ているものを消さず パスの一番最後に ;y:\juman;y:\knp を追加する.;や:を間違えないように注意
ツールをインストールして利用(5) • JUMANの使用 • コマンドプロンプト上で実行する! • スタート→すべてのプログラム→アクセサリ→ コマンドプロンプト y:\> juman
ツールをインストールして利用(5) • KNPの使用 y:\> juman –B –e2 | knp
コーパスの利用(2) • コーパスを作成する場合のツール • 新聞記事を持って来て形態素解析 • スタート→アクセサリ→コマンドプロンプト y:\>juman < **.txt > **.jum • 構文解析 y:\>juman –e2 –B < **.txt | knp y:\>juman –e2 –B < **.txt | knp -tab
コーパスの利用(3) • コーパスを作成する場合のツール • 新聞記事を持って来て形態素解析 tagつけのためのプログラムをperlで自作 • 完全ではないが,多少は作業を楽に進める • スタート→アクセサリ→コマンドプロンプト y:\>juman -e < **.txt | perl tag01.pl jumanとperlプログラムを↑パイプでつなぐ
自作ツールで加工の例 tagつけのためのプログラムをperlで自作 完全ではないが,多少は作業を楽に進める 1. tag01.plをダウンロードしておく 2. テキストを準備する. (見出しの行の前に「TTL」,日付の行の前に「DATE」を入れる) (上の手順2の後の状態にする) 3. スタート→アクセサリ→コマンドプロンプト y:\>juman -e < **.txt | perl tag01.pl
コーパスの利用(4) • 英語の場合 形態素+POS Tag付与 • Brill Tagger が有名だが... • Web上で試せないので • ConexerのPhrase Tagger • ENGTWOL 形態素解析 構文解析 • ConexerのSyntax (syntactic parser)
ツールをインストールして利用 • Apple Pie Parserのインストール • App59win.zipをとってきてインストール (本当は, APP5.9.tar.gzをとってきて, tar –zxvf APP5.9.tar.gz を実行. これだとUnix版だけなので, app.exe もダウンロードし,Windowsで実行 )
コーパスの利用(5) • どんな研究で利用するか • さまざまな単語の頻度,割合 • 特定の単語のさまざまな意味の頻度,割合 • 単語と他の単語の体系的な関連の有無 など →辞書編纂,語の利用の変化,語の使用の偏り 語の組合せ,副詞の用法など
コーパスの利用(6) • どんな研究で利用するか • ほぼ同義の語の使用区別を調べる • 例えば, littleとsmall とか, beginとstart など • ほぼ同じ文法構造の使用区別を調べる • that節とto節
コーパスの利用(7) • コーパス研究で利用するツール • KWIC (KeyWord In Context) • 特定の単語や表現で検索 • その表現の出現位置と周辺の数語を表示 • 元のテキストの情報も参照可能 • 簡単な統計処理機能がついているものもある
コーパスの利用(8) • コーパス研究で利用するツール KWIC (KeyWord In Context) • Business Letter Corpus (マークトウェインのトムソーヤでTom) • Web Concordancer (Brown Corpus,LOB有) adjustments, parking, car park とか • WebCorp 遅い • SpanishCorpusSearch 遅い (Project Gutenberg):電子テキストアーカイブ
コーパスの利用(9) • コーパス研究で利用するツールの例 KWIC (KeyWord In Context) 日本語 • Ajax を使った KWIC (青空文庫) • Yahooを使ったKWIC (KWIC-search)
コーパスの利用(10) • 検索 • 日本国憲法の日英パラレルコーパス (クマぞーの何でも研究室) • 経済白書データベース (内閣府) • 環境白書(環境省) • 国会会議録検索システム(国会) • 法令データ(e-Gov 電子政府)