370 likes | 593 Views
小町 守 自然言語処理学講座 奈良先端科学技術大学院大学. 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと. Apr 14, 2010 Mamoru Komachi <komachi--at--is.naist.jp>. 自然言語処理の応用勉強会. 4 月からスタートします. 現在の勉強会の分布. DMLA. 機械翻訳. 機械学習. 基礎 + 応用 言語 + 学習. CJE. 言論 マップ. 言語. 基礎. 応用. 新しい勉強会を立ち上げます. 自然言語処理の応用勉強会 自然言語処理を応用する 自然言語処理に応用する
E N D
小町守 自然言語処理学講座 奈良先端科学技術大学院大学 「自然言語処理の応用勉強会」の紹介とこれからやりたいこと Apr 14, 2010Mamoru Komachi <komachi--at--is.naist.jp>
自然言語処理の応用勉強会 4月からスタートします
現在の勉強会の分布 DMLA 機械翻訳 機械学習 基礎+応用 言語+学習 CJE 言論 マップ 言語 基礎 応用
新しい勉強会を立ち上げます 自然言語処理の応用勉強会 • 自然言語処理を応用する • 自然言語処理に応用する • 自然言語処理が応用する 略称: NLP.app • (natural language processing …whatever… application)
研究室 SNS にコミュニティ作りました研究室 Wiki にページ作りました ……まだ参加者1人ですが→ 新M1の人は強制参加です!
.app といえば…… これ
ロゴを作ってみました nlp nlp nlp nlp nlp (MIT Press のロゴ; M-I-T-P らしい)
ロゴを作ってみました nlp 二次元 nlp 三次元 いまいち ←(参考)レゴ
ロゴを作ってみました ちょっと物足りない (^_^) 日本語 :-) 英語 (参考)→ スマイリー 日本語は口、英語は 目が笑っている キモイ? id:smly ←(参考) ジャックランタン
ロゴを作ってみました • これにしました (参考)→ ノアの方舟
月曜日の15:10からスタートです • 機械翻訳のみなさん木曜日空いてます! • 土曜日も空いています!(参考: SICP勉強会) • M1のみなさん夜は長いです! • (東「D-Mathが2時間で終わると思うなよ」)
これからやりたいこと 2009年就職活動の事後報告
小町守はいまこんなことを考えています 多様・大規模データを駆使して、ことばの意味を理解するための方法論を確立し、実アプリケーションに展開する。 • 統計的かな漢字変換エンジン ChaIME • 日本語述語項構造解析器 SynCha 研究者が何をやっているのか、どのような基準で行動しているのか参与観察し、研究者・エンジニアと社会のよりよい関係を築く。 • 生駒日記http://d.hatena.ne.jp/mamoruk/ • Twitter http://twitter.com/mamoruk/
修士の仕事のまとめ: 述語項構造解析の基礎と応用をしました ガ ヲ 【文外】 リスク管理の必要性が強く叫ばれているが、市場の実態が把握できていないため打つ手がないのが実情。 項構造=誰が、何を、どうする(述語) 事態性名詞=行為・状態・出来事を指す名詞 →機械翻訳に応用しました (SOV型の日本語をSVO型の英語の語順に並べ替える前処理)
博士の仕事のまとめ: リンク解析を自然言語処理に適用した手法を提案しました • 語義曖昧性解消・意味カテゴリ獲得・対訳辞書構築 • →類似度を計るためにリンク解析で用いられている関連度計算手法(正則化ラプラシアン)を適用 • 主な貢献 • 従来法の問題点をグラフ理論的に説明(改善法→関連度計算活用) • 関連度計算手法が適用可能な自然言語処理のタスクを示した • 大規模ウェブデータから知識獲得
……しかしこれまでの研究は人手で作成したデータに依存しています……しかしこれまでの研究は人手で作成したデータに依存しています • 語義曖昧性解消 • Senseval/Semeval • WordNet/Hinoki Treebank/日本語語彙大系 • 述語項構造解析 • 京都テキストコーパス4.0/NAIST テキストコーパス • 語彙概念構造辞書 • ……やっぱりコストがかかる! リリースまで4年 仕様作成ミーティング(毎週)=priceless
そこで、これからの研究は正解データも自動的に獲得しますそこで、これからの研究は正解データも自動的に獲得します WBC 検索 世界ボクシング評議会 クリックログから分かる 白血球 ワールド・ベースボール・クラシック ワールド・バリスタ・チャンピオンシップ
テキスト処理に、多様で大規模なデータ処理を組み合わせます。テキスト処理に、多様で大規模なデータ処理を組み合わせます。 • Web テキストは書き手が飽和すれば成長は鈍化→テキスト量頼みだと行き詰まる • 今後情報爆発していくのはログデータやセンサーデータなど非テキストのデータ →テキスト量は等差数列的にしか増えないが、ログデータは等比数列的に増える(増やせる) 今から始めておけば、並列処理のノウハウなど含め、先行者利益を得られる
こういう技術は高度な情報検索や予測入力に使えますこういう技術は高度な情報検索や予測入力に使えます • “空気を読む” 検索エンジン・入力インタフェース そばが食べたい…… ふ… め… ね… ねる 蕎麦人はどうですか? 過去の行動履歴 から自動で判断 GPS データによる 絞り込み
分かち書き以外にアプリケーションで使われる水準の要素技術を研究しましょう分かち書き以外にアプリケーションで使われる水準の要素技術を研究しましょう 解析の流れ このあたり 8割くらい にしたい 文正解率にすると5割 ボトムアップな解析は行き詰まっています →トップダウンな解析も必要です
ウェブデータを用いて意味・談話(文脈)解析を次のレベルに押し上げますウェブデータを用いて意味・談話(文脈)解析を次のレベルに押し上げます • 自然言語処理研究のよくないところ • テキストデータ以外使わない • 応用先を(あまり)想定しない • 改善案 • 使える知識は使う(e.g. アンカーテキスト、ヘッダ) • →意味解析、談話解析 • 大規模知識獲得 • (ウェブ上の知識の • インデクシング)
進化したテキスト処理でウェブスケールの大規模知識獲得を推し進めます進化したテキスト処理でウェブスケールの大規模知識獲得を推し進めます • 従来研究 • これからの研究 “Microsoft acquired Powerset.” acquire モノとコトの関係 モノとモノの関係 bought コトとコトの関係
このテーマの研究に必要なものがいくつかありますこのテーマの研究に必要なものがいくつかあります • 分析対象とするデータ →Web テキスト、ブログデータ、検索クエリログ、クリックスルーログ、セッションログ、変換ログ、etc… • 計算機資源 →大規模分散並列処理環境(ハードウェア、ソフトウェア、運用能力、プログラミング能力) • 人! →研究者(自然言語処理、データマイニング、機械学習、etc…)、エンジニア、ユーザ NTT研究所、NEC研究所、… NAIST、…
自然言語処理の応用勉強会へ! 日時: 毎週月曜日15:10- 第1回: 4月26日月曜日15:10- お待ちしております! まだもうちょっと続きます
これから先生きのこるためには WebDB Forum 2009 「インターンシップと産学連携の可能性」 第42回情報科学若手の会 「海外インターンシップのすすめ」
企業でのインターンシップ・共同研究で研究の仕方を学びました企業でのインターンシップ・共同研究で研究の仕方を学びました • 研究員の方々と議論を通じて有益なコメント・アドバイスをいただけました • NTT 研究所: 統計的機械翻訳のワークショップに参加(旅行会話の翻訳=2006年、特許翻訳=2008年) • 企業の中のデータを利用できました • Microsoft Research: 検索クエリログの活用 • ヤフー研究所: 検索クリックスルーログの活用 • 企業の中にいないと作れない製品を作りました • Apple Inc.: iPhone や Mac に使える統計的IMEの研究 →インターンシップに行きましょう
リーマンショック以降就職氷河期と言われるこのご時世。。。リーマンショック以降就職氷河期と言われるこのご時世。。。 インターン =恋愛結婚
えーマジ○○!?○○が許されるのは小学生までだよねーえーマジ○○!?○○が許されるのは小学生までだよねー M.K. さん(32) 「自分インターンシップには4回行きましたよ。サイコーでした。何回行ってもいいですね。海外にも2回行きました。超オススメです。恋愛結婚? 何人かと付き合いましたがいまは妻ひとすじですね!」
ケーススタディ1: NTT 研究所(M1-D2) • 2005年8-9月学外プロジェクト実習(横須賀) • 2006年共同研究(旅行会話の機械翻訳のコンテストに参加)→初国際会議発表(12月) • 2007年共同研究(Wikipedia からの対訳辞書構築……成果なし) • 2008年共同研究(特許翻訳の機械翻訳のコンテストに参加)→国際会議発表(12月) • 2009年1月就職活動 ご縁は大切に!
ケーススタディ2: Microsoft Research (M2-D1) 諦めないで! • 2006年2月応募→不戦敗 • 2007年1月応募→電話面接(30分x2回、英語)、翌日オファー、ビザの手続きやチケットの手配 • 2007年5月渡米 • 最初の1ヶ月サーベイ、真ん中の1ヶ月実装&実験、最後の1ヶ月国際会議投稿&マニュアル作成 • 2007年8月帰国→国際会議アクセプト • 2007年10月論文誌投稿→アクセプト • 2007年12月学振内定→結婚 • 2009年1月就職活動(→×)
ケーススタディ3: ヤフー研究所(D2-D3) わらしべ長者! • 2008年1月国際会議で研究員の方から誘われる • 2008年9月共同研究開始→月1回1週間程度東京オフィスに行き、サーベイ • 2009年2-4月赤坂にウィークリーマンションを借りてもらって実装・実験 • 2009年3月就職活動 • 2009年4月国際会議投稿→アクセプト • 2009年5月研究会発表→学生奨励賞 • 2009年6月論文誌投稿→アクセプト
ケーススタディ4: Apple Inc. (D3) 種を蒔いておく! • 2007年10月 CICP(学内コンペ型実習)で統計的かな漢字変換エンジンを作る • 2009年1月 Mixi と Twitter 経由で誘われる • 2009年2月応募→電話面接(20分x1、日本語)、1週間でオファー、ビザの手続きやチケットの手配 • 2009年5月渡米 • 最初の1ヶ月サーベイ • 真ん中の1ヶ月実装&テスト • 最後の1ヶ月プレゼンテーション • 2009年9月帰国→就職活動
インターンシップ、こんな人にお勧めです! こんな人にお勧め • 自分の働く姿が想像できない • 企業の中にあるデータ・人・などなどを見てみたい • 玉砕覚悟でチャレンジできる向上心がある こんな人には向いていない • 言われたことをただやるだけ • 人の言うことを聞かない • 仕事(人生)を楽しめない コミュニケーション 能力があれば大丈夫
本日のポイント • 「自然言語処理の応用勉強会」つくりました。どうぞご参加ください • 多様で大規模なデータを用いた自然言語処理を考えています • 学生さん一度はインターンシップに行くといいですよ
わらしべ長者! ご縁は大切に! 質問・ご意見・ご感想などどうぞ。 諦めないで! ご清聴ありがとうございました。 種を蒔いておく!
自然言語処理の応用勉強会へ! 日時: 毎週月曜日15:10- 第1回: 4月26日月曜日15:10- お待ちしております! 今度は本当におしまいです