30 likes | 230 Views
ChaIME : 大規模コーパスを用いた 統計的かな漢字変換. 小町守( NAIST ) 森信介(京大)・徳永拓之( PFI ) 第三回言語処理学会若手の会シンポジウム 2008 年 9 月 23 日(火) @ 熱海. 統計的かな漢字変換開発 の目的. 大規模コーパスの利用 できるだけ人手をかけないでメンテナンス Google 日本語 N グラム Web コーパス 5 億文 Wikipedia ・ etc … ヒューリスティックを用いたかな漢字変換に 統計的な理屈づけ. 統計的かな漢字 変換. 森ら( 1998 )の提案
E N D
ChaIME:大規模コーパスを用いた統計的かな漢字変換ChaIME:大規模コーパスを用いた統計的かな漢字変換 小町守(NAIST) 森信介(京大)・徳永拓之(PFI) 第三回言語処理学会若手の会シンポジウム 2008年9月23日(火)@熱海
統計的かな漢字変換開発の目的 • 大規模コーパスの利用 • できるだけ人手をかけないでメンテナンス • Google 日本語 N グラム • Webコーパス5億文 • Wikipedia・etc… • ヒューリスティックを用いたかな漢字変換に統計的な理屈づけ
統計的かな漢字変換 • 森ら(1998)の提案 • P(x|y) の降順に変換可能文字列 (x1, x2, …) を提示する • x: 文, y: 入力 • MS-IME 2007, ATOK 2008が統計的手法を採用 かな漢字モデル × 言語モデル によるランキング