1 / 1

CICP2007

今年. の. 流行. 語. CKY. ……. 自動的にユーザの手に馴染むテキスト入力環境の構築. 関連ソフトウェア. 統計的仮名漢字変換 P( 仮名漢字 | 入力 ) の降順に変換候補を提示 = P( 入力 | 仮名漢字 ) P( 仮名漢字 ) の降順に変換候補を提示 (∵ ベイズ則 ). Sumibi 生コーパスから自動的に連接コストを推定 単語分かち書きが必要 辞書にない単語は変換できない. Anthy 解析済みコーパスから変換パラメータ推定 機械学習とヒューリスティックのハイブリッド メンテナンスに品詞や文節の知識が必要. 仮名漢字モデル.

gaerwn
Download Presentation

CICP2007

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 今年 の 流行 語 CKY …… 自動的にユーザの手に馴染むテキスト入力環境の構築 関連ソフトウェア 統計的仮名漢字変換 P(仮名漢字|入力)の降順に変換候補を提示 =P(入力|仮名漢字)P(仮名漢字)の降順に変換候補を提示(∵ベイズ則) Sumibi 生コーパスから自動的に連接コストを推定 単語分かち書きが必要 辞書にない単語は変換できない Anthy 解析済みコーパスから変換パラメータ推定 機械学習とヒューリスティックのハイブリッド メンテナンスに品詞や文節の知識が必要 仮名漢字モデル 言語モデル AjaxIME 解析済みコーパスから 変換・連接コスト推定 言語モデルが小さい 仮名漢字モデルが貧弱 かつあき? こくめい? 克明 wi 仮名漢字モデル P(入力|仮名漢字) の学習 解析済みコーパスから頻度を計算して最尤推定 毎日新聞13年分を形態素解析器MeCabで解析 大規模コーパスによる統計的自然言語処理の応用 できるだけ人手をかけないでメンテナンス Google 日本語 N グラム・Wikipedia・etc… 言語モデル P(仮名漢字) の学習 文を単語列と見なして文頭から予測するNグラム言語モデル Google 日本語Nグラムデータ(200億文)から単語の1,2グラムを計算(異なり1グラム数:250万;異なり2グラム数:8,000万) 品詞情報を用いない頑健な仮名漢字変換 大規模データから変換確率を推定 一般の開発者向けのフレームワークを提案 大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換 CICP2007 CICP リーダー: 自然言語処理学講座 D1 小町守 / 協力: 京大 森信介, Yahoo! Japan 徳永拓之 課題と今後の予定 未知語に対する洗練されたモデルを検討中 3グラム以上の言語モデルを使う(サイズが巨大) 単語入力履歴(変換ログ)やトピック情報を用いた変換を今後研究

More Related