1 / 14

大規模時系列ウェブコーパスを用いた 新造語の盛衰のダイナミズムの分析

大規模時系列ウェブコーパスを用いた 新造語の盛衰のダイナミズムの分析. 鍜治伸裕 1 宇野良子 2 東京大学 生産技術研究所 1 東京大学大学院 総合文化研究科 2. ちょっと大きな狙い. 大規模時系列コーパスを活用した言語学と それを支援する自然言語処理技術. 新造語の通時的な用例. 気になってググってみる と. お父さんを ファブ る から服全部脱いで. 2005. 用例の検索. 2006. 2007. 2008. 大規模時系列ウェブコーパス ( 10 年 100 億ページ). 言語学者. 研究課題. 言語処理

Download Presentation

大規模時系列ウェブコーパスを用いた 新造語の盛衰のダイナミズムの分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 大規模時系列ウェブコーパスを用いた新造語の盛衰のダイナミズムの分析大規模時系列ウェブコーパスを用いた新造語の盛衰のダイナミズムの分析 鍜治伸裕1宇野良子2 東京大学 生産技術研究所1 東京大学大学院 総合文化研究科2

  2. ちょっと大きな狙い

  3. 大規模時系列コーパスを活用した言語学とそれを支援する自然言語処理技術大規模時系列コーパスを活用した言語学とそれを支援する自然言語処理技術 新造語の通時的な用例 気になってググってみると お父さんをファブるから服全部脱いで 2005 用例の検索 2006 2007 2008 大規模時系列ウェブコーパス (10年100億ページ) 言語学者

  4. 研究課題 • 言語処理 • 辞書未登録語(⊇新造語)を解析するためのモデル • 言語学 • 通時的な言葉の変化の理論化,および実データにもとづく理論検証 • (データベース) • クローラの設計,および大規模データの管理

  5. 新しい知見 • Tsujimura & Davis (2008) • (a)分類 • 外来語由来、漢語由来、 • オノマトペ由来、固有名由来 • (b)特徴 • 音韻・形態的 • 五段活用 •   二モーラ以上 •    アクセント(*) • 語用論的 • playfulness, ノリ [米川、2002] • (c)新造語動詞はconstruction • (意味と形の特殊な結びつき、Goldberg [1995]) • ウェブコーパスの利用によって • (a) 新たなカテゴリーを指摘 • (b) 検証・時間変化に関わる特徴の指摘 • (c) 形と意味の特殊な結びつきの出現を分析 * …(C)V(C)V-C]- | /r/

  6. 事例研究:「ファブる」における構文交替の出現事例研究:「ファブる」における構文交替の出現 「ファブる」と「ファブリーズする」 の相関 ファブリーズをかける対象がとる格の変化

  7. 新造語の通時的な用例 気になってググってみると お父さんをファブるから服全部脱いで 用例の検索 2005 2006 2007 2008 言語学者 大規模時系列ウェブコーパス (10年100億ページ)

  8. 品詞に特徴的な文字列 動詞「ググる」 名詞「ブログ」 前後5文字のベクトル表現 (実際には正規化している) 右側文脈 左側文脈 の た この… の を のみ… (ブログ) → ( 3, 1, 1, … 1, 1, 1, … )

  9. 問題:単語と句の区別が困難 他には「この国」「社会と文化」「横に長(い)」などが問題に 句の内部構造をモデル化することによって解決を図る

  10. 既知語から推定した 文脈ベクトルの平均 語幹の文脈ベクトル 単語モデル (ググる) 動詞 (ググる,動詞) (ググる|動詞) (文脈をvMF分布でモデル化) 句モデル 1/2 (ブログ|名詞) (ブログ-検索,名詞-名詞) (検索|名詞) 単語モデルの幾何平均(3単語以上の場合も同様) 品詞は不明なのでmaxをとる. 句モデル(分母)の場合は単語境界も不明 対数尤度比によるランキング ある文字列  の単語らしさ 句モデルの尤度が高いと全体のスコアが低くなる

  11. 品詞の推定 文字列  に以下を満たす品詞  を与える ただし

  12. 尤度比の計算 文字列  を単語と考えたときのコサイン 句と考えたときの構成要素のコサインの平均

  13. 獲得例 Juman辞書に登録されていないスコア上位の語

More Related