自然言語処理の応用勉強会」の紹介とこれからやりたい

「自然言語処理の応用勉強会」の紹介
と
これからやりたいこと
小町 守
自然言語処理学講座
奈良先端科学技術大学院大学
Apr 14, 2010
Mamoru Komachi <komachi--at--is.naist.jp>
2
自然言語処理の応用勉強会
4月からスタートします
現在の勉強会の分布
3
機
械
学
習
DMLA
CJE
言
語
基礎
基礎+応用
機械翻訳
言語+学習
言論
マップ
応用
新しい勉強会を立ち上げます
4
自然言語処理の応用勉強会
 自然言語処理を応用する
 自然言語処理に応用する
 自然言語処理が応用する
略称: NLP.app
 (natural language processing …whatever… application)
研究室 SNS にコミュニティ作りました
研究室 Wiki にページ作りました
5
……まだ参加者1人ですが→
新M1の人は強制参加です!
.app といえば……
6
これ
ロゴを作ってみました
7
nlp
nlp nlp
nlp nlp
(MIT Press のロゴ; M-I-T-P らしい)
ロゴを作ってみました
8
二
次
元
nlp
三
次
元
nlp
いまいち
←(参考)レゴ
ロゴを作ってみました
9
ちょっと物足りない
(参考)→
スマイリー
キモイ?
(^_^) 日本語
:-) 英語
日本語は口、英語は
id:smly
目が笑っている
←(参考)
ジャックランタン
ロゴを作ってみました
10

これにしました
(参考)→
ノアの方舟
月曜日の15:10からスタートです
11
時間
月
火
13:3015:10-
NLP.app
17:0019:00-
DMLA
水
木
金
CJE
言論マップ
研究会
DMLA
研究会
D-Math
FSNLP
21:0023:00



機械翻訳のみなさん木曜日空いてます!
土曜日も空いています!(参考: SICP勉強会)
M1のみなさん夜は長いです!
(東「D-Mathが2時間で終わると思うなよ」)
土
12
これからやりたいこと
2009年就職活動の事後報告
小町守はいまこんなことを考えています
13
多様・大規模データを駆使して、ことばの意味を
理解するための方法論を確立し、実アプリケー
ションに展開する。
統計的かな漢字変換エンジン ChaIME
日本語述語項構造解析器 SynCha
研究者が何をやっているのか、どのような基準で
行動しているのか参与観察し、研究者・エンジニ
アと社会のよりよい関係を築く。
生駒日記 http://d.hatena.ne.jp/mamoruk/
Twitter http://twitter.com/mamoruk/
修士の仕事のまとめ: 述語項構造解析の
基礎と応用をしました
14
ヲ
ガ
【文外】
リスク管理の必要性が強く叫ばれているが、市
場の実態が把握できていないため打つ手がな
いのが実情。
項構造=誰が、何を、どうする(述語)
事態性名詞=行為・状態・出来事を指す名詞
→機械翻訳に応用しました
(SOV型の日本語をSVO型の英語の語順に並べ替える前処理)
博士の仕事のまとめ: リンク解析を自然言
語処理に適用した手法を提案しました
15


語義曖昧性解消・意味カテゴリ獲得・対訳辞書構築
→類似度を計るためにリンク解析で用いられている
関連度計算手法(正則化ラプラシアン)を適用
主な貢献
❀従来法の問題点をグラフ理論的に説
明(改善法→関連度計算活用)
❀関連度計算手法が適用可能な自然
言語処理のタスクを示した
❀大規模ウェブデータから知識獲得
……しかしこれまでの研究は人手で
作成したデータに依存しています
16

語義曖昧性解消
 Senseval/Semeval
 WordNet/Hinoki

Treebank/日本語語彙大系
述語項構造解析
 京都テキストコーパス4.0/NAIST
 語彙概念構造辞書

テキストコーパス
リリースまで4年
仕様作成ミーティング(毎週)
=priceless
……やっぱりコストがかかる!
そこで、これからの研究は正解データも
自動的に獲得します
17
WBC
検索
世界ボクシング評議会
クリックログから分かる
白血球
ワールド・ベースボール・クラシック
ワールド・バリスタ・チャンピオンシップ
テキスト処理に、多様で大規模なデータ
処理を組み合わせます。
18

Web テキストは書き手が飽和すれば成長は鈍化
→テキスト量頼みだと行き詰まる
今後情報爆発していくのはログデータやセンサー
データなど非テキストのデータ
→テキスト量は等差数列的にしか増えないが、ログ
データは等比数列的に増える(増やせる)

今から始めておけば、並列処理のノウハウなど含め、
先行者利益を得られる
こういう技術は高度な情報検索や
予測入力に使えます
19

“空気を読む” 検索エンジン・入力インタフェース
そばが食べたい……
ふ…
め…
ね…
ねる
蕎麦人はどうですか?
GPS データによる
絞り込み
過去の行動履歴
から自動で判断
分かち書き以外にアプリケーションで使わ
れる水準の要素技術を研究しましょう
20
要素技術
形態素解析(分かち書き)
構文解析(係り受け)
意味解析(述語項構造)
文脈解析(文を超えた関係)
精度
99%
90%
70%
60%
文正解率にすると5割
ボトムアップな解析は行き詰まっています
→トップダウンな解析も必要です
解
析
の
流
れ
このあたり
8割くらい
にしたい
ウェブデータを用いて意味・談話(文脈)
解析を次のレベルに押し上げます
21
自然言語処理研究のよくないところ
 テキストデータ以外使わない
 応用先を(あまり)想定しない
改善案
使える知識は使う(e.g. アンカーテキスト、ヘッダ)
→意味解析、談話解析
 大規模知識獲得
(ウェブ上の知識の
インデクシング)

進化したテキスト処理でウェブスケールの
大規模知識獲得を推し進めます
22

従来研究

これからの研究
“Microsoft acquired Powerset.”
acquire
モノとコトの関係
モノとモノの関係
bought
コトとコトの関係
このテーマの研究に必要なものが
いくつかあります
23
NTT研究所、NEC研究所、…
分析対象とするデータ
→Web テキスト、ブログデータ、検索クエリログ、ク
リックスルーログ、セッションログ、変換ログ、etc…
 計算機資源
NAIST、…
→大規模分散並列処理環境(ハードウェア、ソフト
ウェア、運用能力、プログラミング能力)
 人!
→研究者(自然言語処理、データマイニング、機械
学習、etc…)、エンジニア、ユーザ

みなさんの力が必要です!
24
自然言語処理の応用勉強会へ!
25
日 時: 毎週 月曜日15:10第1回: 4月26日月曜日15:10-
お待ちしております!
まだもうちょっと続きます
26
これから先生きのこるためには
WebDB Forum 2009
「インターンシップと産学連携の可能性」
第42回情報科学若手の会
「海外インターンシップのすすめ」
企業でのインターンシップ・
共同研究で研究の仕方を学びました
27

研究員の方々と議論を通じて有益なコメント・アド
バイスをいただけました
研究所: 統計的機械翻訳のワークショップに参加
(旅行会話の翻訳=2006年、特許翻訳=2008年)
 NTT

企業の中のデータを利用できました
Research: 検索クエリログの活用
 ヤフー研究所: 検索クリックスルーログの活用
 Microsoft

企業の中にいないと作れない製品を作りました
 Apple
Inc.: iPhone や Mac に使える統計的IMEの研究
→インターンシップに行きましょう
リーマンショック以降
就職氷河期と言われるこのご時世。。。
28
インターン
=恋愛結婚
えーマジ○○!?
○○が許されるのは小学生までだよねー
29
期間
問題 回数
インターン
数週間 個人
=恋愛結婚
数ヶ月
ジョブマッチング
=お見合い結婚 数回
家族
何回
でも!
順番
好きになって
から一緒に
一緒になっ
できれば
てから好き
1回で
に
M.K. さん(32)
「自分インターンシップには4回行きましたよ。サイコーで
した。何回行ってもいいですね。海外にも2回行きました。
超オススメです。恋愛結婚? 何人かと付き合いました
がいまは妻ひとすじですね!」
ケーススタディ1: NTT 研究所(M1-D2)
30





2005年8-9月 学外プロジェクト実習(横須賀)
2006年 共同研究(旅行会話の機械翻訳のコンテ
ストに参加)→初国際会議発表(12月)
2007年 共同研究(Wikipedia からの対訳辞書構
築……成果なし)
2008年 共同研究(特許翻訳の機械翻訳のコンテ
ストに参加)→国際会議発表(12月)
2009年1月 就職活動
ご縁は大切に!
ケーススタディ2: Microsoft Research (M2-D1)
31



2006年2月 応募→不戦敗 諦めないで!
2007年1月 応募→電話面接(30分x2回、英語)、
翌日オファー、ビザの手続きやチケットの手配
2007年5月 渡米
 最初の1ヶ月サーベイ、真ん中の1ヶ月実装&実験、
最後の1ヶ月国際会議投稿&マニュアル作成




2007年8月 帰国→国際会議アクセプト
2007年10月 論文誌投稿→アクセプト
2007年12月 学振内定→結婚
2009年1月 就職活動(→×)
32
ケーススタディ3: ヤフー研究所(D2-D3)
わらしべ長者!







2008年1月 国際会議で研究員の方から誘われる
2008年9月 共同研究開始→月1回1週間程度東
京オフィスに行き、サーベイ
2009年2-4月 赤坂にウィークリーマンションを借り
てもらって実装・実験
2009年3月 就職活動
2009年4月 国際会議投稿→アクセプト
2009年5月 研究会発表→学生奨励賞
2009年6月 論文誌投稿→アクセプト
33
ケーススタディ4: Apple Inc. (D3)
種を蒔いておく!




2007年10月 CICP(学内コンペ型実習)で統計的
かな漢字変換エンジンを作る
2009年1月 Mixi と Twitter 経由で誘われる
2009年2月 応募→電話面接(20分x1、日本語)、
1週間でオファー、ビザの手続きやチケットの手配
2009年5月 渡米
 最初の1ヶ月サーベイ
 真ん中の1ヶ月実装&テスト
 最後の1ヶ月プレゼンテーション

2009年9月 帰国→就職活動
インターンシップ、こんな人にお勧めです!
34
こんな人にお勧め
 自分の働く姿が想像できない
 企業の中にあるデータ・人・などなどを見てみたい
 玉砕覚悟でチャレンジできる向上心がある
こんな人には向いていない
 言われたことをただやるだけ
コミュニケーション
 人の言うことを聞かない
 仕事(人生)を楽しめない 能力があれば大丈夫
本日のポイント
35



「自然言語処理の応用勉強会」つくりました。どうぞ
ご参加ください
多様で大規模なデータを用いた自然言語処理を考
えています
学生さん一度はインターンシップに行くといいですよ
わらしべ長者!
ご縁は大切に!
質問・ご意見・ご感想などどうぞ。
諦めないで!
種を蒔いておく!
ご清聴ありがとうございまし
た。
自然言語処理の応用勉強会へ!
37
日 時: 毎週 月曜日15:10第1回: 4月26日月曜日15:10-
お待ちしております!
今度は本当におしまいです