NTT 研究所 配属志望面談 奈良先端科学技術大学院大学 自然言語処理学講座(松本裕治研究室) 小町守 2009年3月23日(月) データマイニングと自然言語処理の 中間あたりを狙っています 2 デ ー タ 工 学 言 語 処 理 データ マイニング 言語+データ 意味解析 教師あり 機械翻訳 教師なし 自然言語処理では教師あり学習が 成功を収めています 3 大規模 コーパス コーパス コーパス 高品質 辞書 高精度 分類器 …しかしこれらを作るのはコストがかかる →少量のデータから学習できれば解決! ブートストラップという半教師あり手法は 少数のデータから学習できます 4 種の事例から出発し反復的にパターン・事例抽出 入力 (コーパスから検索) 出力 事例 パターン 新しい事例 広末涼子 ___ 画像 菅野美穂 宇多田ヒカル 菅野美穂 ___ 写真集 交互に繰り返す 石原さとみ 深田恭子 これまでにグラフ理論を用いてブート ストラップを分析しました 5 事例とパターンで作る2部グラフ 広末涼子 ? ___ ホテル 奈良 「奈良」と「菅野美穂」 どちらが「広末涼子」 に似ている? ___ 画像 菅野美穂 ___ 写真集 グラフ理論(リンク解 析)の手法を用いて ブートストラップと HITS が等価である 計算できる ことを解析的に示しました (PageRank, etc…) 赤坂 リンク解析を語義曖昧性解消に適用 した手法を提案しました 6 k-nearest neighbour による単語の意味の分類 →単語の「近さ」を計るためにリンク解析で用いら れている手法(正則化ラプラシアンカーネル)を用 いることを提案 利点 理論的背景がしっかりしている 比較的少数の事例しかなくてもよい 欠点 計算量が大きい(近似する) 性能はグラフの作り方に依存 ……しかしこれまでの研究は人手で 作成したデータに依存しています 7 語義曖昧性解消 Senseval/Semeval(来年) WordNet/Hinoki Treebank/日本語語彙大系 述語項構造解析 京都テキストコーパス4.0/NAIST 語彙概念構造辞書 テキストコーパス 作成に4年、作業者延べ2名 仕様作成ミーティング=priceless ……やっぱりコストがかかる! そこで、これからの研究は正解データも 自動的に獲得します 8 WBC 検索 世界ボクシング評議会 クリックログから分かる 白血球 ワールド・ベースボール・クラシック ワールド・バリスタ・チャンピオンシップ テキスト処理に、大規模データ処理を 組み合わせます。 9 Web テキストは書き手が飽和すれば成長は鈍化 →テキスト量頼みだと行き詰まる 今後情報爆発していくのはログデータやセンサー データなど非テキストのデータ →テキスト量は等差数列的にしか増えないが、ログ データは等比数列的に増える(増やせる) データを扱える企業が取り組めば、並列処理のノウハ ウなど含め、先行者利益を得られる こういう技術は高度な情報検索や 予測入力に使えます 10 “空気を読む” 検索エンジン・入力インタフェース そばが食べたい…… ふ… め… ね… ねる 蕎麦人はどうですか? GPS データによる 絞り込み 過去の行動履歴 から自動で判断 このテーマの研究に必要なものが いくつかあります 11 分析対象とするデータ →Web テキスト、ブログデータ、検索クエリログ、ク リックスルーログ、セッションログ、変換ログ、etc… 計算機資源 →大規模分散並列処理環境(ハードウェア、ソフト ウェア、運用能力、プログラミング能力) 人! →研究者(自然言語処理、データマイニング、機械 学習、etc…)、エンジニア、ユーザ NTT 研究所の魅力は層の厚い優れた 研究者にあります 12 研究の各分野に層の厚い優れた研究者 →レベルの高い研究で世界をリードできる 研究者としてのキャリアパス →長期的にアカデミアに貢献できる 多様なサービスプロバイダとしての展開 →教えて! goo, goo ブログ, モバイル検索などの関 連サービスを用いた研究・開発 開発と研究のバランス →論文を書くだけでなくサービス展開も可能 NTT 研究所でのインターンシップ・ 共同研究で研究の仕方を学びました 13 研究員の方々と議論を通じて有益なコメント・アド バイスをいただけました IWSLT 2006(旅行会話の機械翻訳のワークショップ) NTCIR-7 (2008)特許翻訳タスク(日英の特許文書の 機械翻訳のワークショップ) コーパスや辞書データ、ツールが充実しているの で実験に困りませんでした 短期間しかできないインターンシップでは特に重要 計算機資源も豊富 オープンマインドで研究と開発の バランスを取ります 14 精力的に論文を書きます 国際会議(筆頭5件・共著2件)・論文誌(2件)・国内研究 会(筆頭7件・共著6件)・辞書項目(1件)・学会賞(3件)・ 国際会議プログラム委員(1件) さまざまな企業でインターンシップしています Microsoft Research, Yahoo! 研究所, Apple (予定) オープンソース開発活動に従事しています 未踏ユース・Gentoo Linux/Fink Project 公式開発者・ 統計的かな漢字変換ソフト ChaIME 開発リーダー IPA プログラミング言語: Python(2年), C++(3年), C#(1 年), Perl(10年), シェルスクリプト(bash; 5年) こういう研究者になります 15 自ら調べ、自ら考え、自ら行動します 国際的にアウトプットを出します シドニー大学1年留学(2005年)、MSR 3ヶ月インター ンシップ(2007年)、TOEFL CBT 266点/TOEIC 960点 文系・理系の垣根を越えます 学部=科学史科学哲学専攻出身、現在慶応大学通 信教育部経済学部3年次在学 多くの人に使ってもらえるアプリケーション・デー タ・理論を作ります
© Copyright 2024 ExpyDoc