260 likes | 338 Views
微小時間における日本語の変化とその法則. 荒牧英治 * 増川佐知子 ** 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ. 現代日本語で頻出する 1000 語のうち万葉集において見られるものは 326 語 [ 宮島 1967]. 32.6%. 使用頻度. 時間. 平安時代. 現代. 現代 +Δt. 常用語は固定化されほとんど順位が変化しない. 境界は どこか ?. 非常用語ははげしく 順位が入れ替わる. はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はあるか ? 」 まとめ. 材料.
E N D
微小時間における日本語の変化とその法則 荒牧英治 * 増川佐知子 ** 東京大学 知の構造化センター **科学技術振興機構 さきがけ Mar. 9, NLP2011
現代日本語で頻出する1000語のうち万葉集において見られるものは326語[宮島1967]現代日本語で頻出する1000語のうち万葉集において見られるものは326語[宮島1967] 32.6% 使用頻度 時間 平安時代 現代 現代+Δt Mar. 9, NLP2011
常用語は固定化されほとんど順位が変化しない常用語は固定化されほとんど順位が変化しない 境界は どこか? 非常用語ははげしく 順位が入れ替わる Mar. 9, NLP2011
はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はあるか?」 • まとめ Mar. 9, NLP2011
材料 • Twitterクロールデータ約30億tweet • 全データを形態素解析器(juman)にて解析 • 1日毎に過去30日の語の使用頻度を集計した • スライド単位=1日,ウィンドウ幅=30日 • 本稿では形態素を語とみなす • 相対頻度(対象となる形態素頻度/すべての形態素頻度)で正規化 • 日によってクロール稼働率が異なるため Mar. 9, NLP2011
2つの指標 • N位保存率 • ある時期でN位以内にいた語がΔt経過後にもN位以内にとどまる割合 • 順位相関係数(スピアマン) • 基準期間で上位N位以内の語の順位(の系列)がΔ t時間経過後の順位とどれくらい類似しているか Mar. 9, NLP2011
N位保存率(Y軸)とΔt(8ヶ月)論文図表 Mar. 9, NLP2011
N位保存率(Y軸)とΔt (1.5年)最新結果 Mar. 9, NLP2011
順位相関係数とΔt Mar. 9, NLP2011
Δt経過後(Δt=180日)に成長した語と衰退した語 Mar. 9, NLP2011
どのような頻度変化が起こっているのか?ある時点で頻度Xだった後がΔt時間経過後に頻度Yになっている頻度(Δt=30日)どのような頻度変化が起こっているのか?ある時点で頻度Xだった後がΔt時間経過後に頻度Yになっている頻度(Δt=30日) 時間T+Δtでの相対頻度 Δt経過後に頻度aとなった語が もともと基準期間にどのような 頻度であったかの確率分布 基準期間で頻度aであった語が,Δt経過後にどのような頻度に変化しているかの確率分布 時間Tでの 相対頻度 Mar. 9, NLP2011
詳細釣り合い(detailed balance) • ある過程の起こる確率とその逆過程の起こる確率が等しい状態 • 企業の成長や気体分子の運動などに見られる • 言語の頻度変化で詳細釣り合いが成り立つ範囲 • 相対頻度2.5e-5より大きい語(使用頻度上位4000語) • 語の頻度分布の形は時間の経過とともに変化しない • 現時点での言語がZipf則にしたがっているなら今後も従い続ける Mar. 9, NLP2011
はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はあるか?」 • まとめ Mar. 9, NLP2011
具体的には 使用頻度 語彙が 安定している領域 常用語 語彙が 不安定な領域 新語 死語 時間 Mar. 9, NLP2011
語の成長率とその分布 • ある語がどれだけ使用頻度を増やしたか Δt経過後の語wの相対使用頻度 語wの成長率= 基準期間での語wの相対使用頻度 • 成長率分布 (例:使用頻度1位~10位まで) 頻度 成長率 1 0.5 2 Mar. 9, NLP2011
成長率の定義 使用頻度 語彙が 安定している領域 成長率=1 成長率=2 語彙が 不安定な領域 成長率=0.5 時間 Mar. 9, NLP2011
語の成長率の分布 (Δt=30日)高頻度から1000位毎にプロット Mar. 9, NLP2011
成長率の分布が同じということは 使用頻度 語彙として安定する境界というものはない どんな頻度であっても入れ替わりが起こりうる 高頻度ほど大きな頻度変化を起こしやすい 10回→30回≒ 10000回→30000回 時間 Mar. 9, NLP2011
はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はあるか?」 • 関連研究 • まとめ Mar. 9, NLP2011
関連研究との差異 • 語全体の調査 • あらかじめ注目していた語について,その振る舞いを調査[宮島1967,飛田1966] • 本研究では,すべての語での調査を行うため,バイアスがかからず,全体的な挙動を知ることができる. • 微小時間の調査 • いくつかの大規模調査(大西調査[5]や凸版調査[6]など)では10年またはそれ以上の期間が対象 • 本研究は日単位という微小時間での使用頻度の連続的変化を調査 Mar. 9, NLP2011
はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はあるか?」 • 関連研究 • まとめ Mar. 9, NLP2011
現代日本語で頻出する1000語の1年後でも同順位に入っているものは80%現代日本語で頻出する1000語の1年後でも同順位に入っているものは80% 32.6% 80% 使用頻度 時間 平安時代 現代 現代+Δt Mar. 9, NLP2011
まとめ • 語の使用頻度は平衡状態を保ちながら言語全体で変化している • 詳細釣り合い状態(時間について対象な状態) • 語の使用頻度の変化は順位に依存しない • 高頻度語も低頻度語も次の瞬間には同様な変化をしうる Mar. 9, NLP2011
本研究の限界 • 一般的な議論を行うためには,さらなる長期観察が必要である • 語が変化したのではなくユーザが変化した可能性は? • ツィッター上の発言(文書における話し言葉)以外の伝達形式においても本研究での知見が共通するかどうかは不明 Mar. 9, NLP2011
謝辞 京都大学遠藤智子氏 産業技術総合研究所黒嶋智美氏 金沢学院大学石川温先生 クックパッド兼山元太氏 荒牧英治 eiji.aramaki@gmail.com Mar. 9, NLP2011