NTT 研究所 配属志望面談

NTT 研究所 配属志望面談
奈良先端科学技術大学院大学
自然言語処理学講座(松本裕治研究室)
小町守
2009年3月23日(月)
データマイニングと自然言語処理の
中間あたりを狙っています
2
デ
ー
タ
工
学
言
語
処
理
データ
マイニング
言語+データ
意味解析
教師あり
機械翻訳
教師なし
自然言語処理では教師あり学習が
成功を収めています
3
大規模
コーパス
コーパス
コーパス


高品質
辞書
高精度
分類器
…しかしこれらを作るのはコストがかかる
→少量のデータから学習できれば解決!
ブートストラップという半教師あり手法は
少数のデータから学習できます
4

種の事例から出発し反復的にパターン・事例抽出
入力
(コーパスから検索)
出力
事例
パターン
新しい事例
広末涼子
___ 画像
菅野美穂
宇多田ヒカル
菅野美穂
___ 写真集
交互に繰り返す
石原さとみ
深田恭子
これまでにグラフ理論を用いてブート
ストラップを分析しました
5

事例とパターンで作る2部グラフ
広末涼子
?
___ ホテル
奈良
「奈良」と「菅野美穂」
どちらが「広末涼子」
に似ている?
___ 画像
菅野美穂
___ 写真集
グラフ理論(リンク解
析)の手法を用いて
ブートストラップと HITS が等価である 計算できる
ことを解析的に示しました
(PageRank, etc…)
赤坂
リンク解析を語義曖昧性解消に適用
した手法を提案しました
6


k-nearest neighbour による単語の意味の分類
→単語の「近さ」を計るためにリンク解析で用いら
れている手法(正則化ラプラシアンカーネル)を用
いることを提案
利点
理論的背景がしっかりしている
比較的少数の事例しかなくてもよい
欠点
計算量が大きい(近似する)
性能はグラフの作り方に依存
……しかしこれまでの研究は人手で
作成したデータに依存しています
7

語義曖昧性解消
 Senseval/Semeval(来年)
 WordNet/Hinoki

Treebank/日本語語彙大系
述語項構造解析
 京都テキストコーパス4.0/NAIST
 語彙概念構造辞書

テキストコーパス
作成に4年、作業者延べ2名
仕様作成ミーティング=priceless
……やっぱりコストがかかる!
そこで、これからの研究は正解データも
自動的に獲得します
8
WBC
検索
世界ボクシング評議会
クリックログから分かる
白血球
ワールド・ベースボール・クラシック
ワールド・バリスタ・チャンピオンシップ
テキスト処理に、大規模データ処理を
組み合わせます。
9

Web テキストは書き手が飽和すれば成長は鈍化
→テキスト量頼みだと行き詰まる
今後情報爆発していくのはログデータやセンサー
データなど非テキストのデータ
→テキスト量は等差数列的にしか増えないが、ログ
データは等比数列的に増える(増やせる)

データを扱える企業が取り組めば、並列処理のノウハ
ウなど含め、先行者利益を得られる
こういう技術は高度な情報検索や
予測入力に使えます
10

“空気を読む” 検索エンジン・入力インタフェース
そばが食べたい……
ふ…
め…
ね…
ねる
蕎麦人はどうですか?
GPS データによる
絞り込み
過去の行動履歴
から自動で判断
このテーマの研究に必要なものが
いくつかあります
11
分析対象とするデータ
→Web テキスト、ブログデータ、検索クエリログ、ク
リックスルーログ、セッションログ、変換ログ、etc…
 計算機資源
→大規模分散並列処理環境(ハードウェア、ソフト
ウェア、運用能力、プログラミング能力)
 人!
→研究者(自然言語処理、データマイニング、機械
学習、etc…)、エンジニア、ユーザ

NTT 研究所の魅力は層の厚い優れた
研究者にあります
12
研究の各分野に層の厚い優れた研究者
→レベルの高い研究で世界をリードできる
 研究者としてのキャリアパス
→長期的にアカデミアに貢献できる
 多様なサービスプロバイダとしての展開
→教えて! goo, goo ブログ, モバイル検索などの関
連サービスを用いた研究・開発
 開発と研究のバランス
→論文を書くだけでなくサービス展開も可能

NTT 研究所でのインターンシップ・
共同研究で研究の仕方を学びました
13

研究員の方々と議論を通じて有益なコメント・アド
バイスをいただけました
 IWSLT
2006(旅行会話の機械翻訳のワークショップ)
 NTCIR-7 (2008)特許翻訳タスク(日英の特許文書の
機械翻訳のワークショップ)

コーパスや辞書データ、ツールが充実しているの
で実験に困りませんでした
 短期間しかできないインターンシップでは特に重要

計算機資源も豊富
オープンマインドで研究と開発の
バランスを取ります
14

精力的に論文を書きます
 国際会議(筆頭5件・共著2件)・論文誌(2件)・国内研究
会(筆頭7件・共著6件)・辞書項目(1件)・学会賞(3件)・
国際会議プログラム委員(1件)

さまざまな企業でインターンシップしています
 Microsoft

Research, Yahoo! 研究所, Apple (予定)
オープンソース開発活動に従事しています
未踏ユース・Gentoo Linux/Fink Project 公式開発者・
統計的かな漢字変換ソフト ChaIME 開発リーダー
 IPA

プログラミング言語: Python(2年), C++(3年), C#(1
年), Perl(10年), シェルスクリプト(bash; 5年)
こういう研究者になります
15


自ら調べ、自ら考え、自ら行動します
国際的にアウトプットを出します
 シドニー大学1年留学(2005年)、MSR
3ヶ月インター
ンシップ(2007年)、TOEFL CBT 266点/TOEIC 960点

文系・理系の垣根を越えます
 学部=科学史科学哲学専攻出身、現在慶応大学通
信教育部経済学部3年次在学

多くの人に使ってもらえるアプリケーション・デー
タ・理論を作ります