「自然言語処理の応用勉強会」の紹介 と これからやりたいこと 小町 守 自然言語処理学講座 奈良先端科学技術大学院大学 Apr 14, 2010 Mamoru Komachi <komachi--at--is.naist.jp> 2 自然言語処理の応用勉強会 4月からスタートします 現在の勉強会の分布 3 機 械 学 習 DMLA CJE 言 語 基礎 基礎+応用 機械翻訳 言語+学習 言論 マップ 応用 新しい勉強会を立ち上げます 4 自然言語処理の応用勉強会 自然言語処理を応用する 自然言語処理に応用する 自然言語処理が応用する 略称: NLP.app (natural language processing …whatever… application) 研究室 SNS にコミュニティ作りました 研究室 Wiki にページ作りました 5 ……まだ参加者1人ですが→ 新M1の人は強制参加です! .app といえば…… 6 これ ロゴを作ってみました 7 nlp nlp nlp nlp nlp (MIT Press のロゴ; M-I-T-P らしい) ロゴを作ってみました 8 二 次 元 nlp 三 次 元 nlp いまいち ←(参考)レゴ ロゴを作ってみました 9 ちょっと物足りない (参考)→ スマイリー キモイ? (^_^) 日本語 :-) 英語 日本語は口、英語は id:smly 目が笑っている ←(参考) ジャックランタン ロゴを作ってみました 10 これにしました (参考)→ ノアの方舟 月曜日の15:10からスタートです 11 時間 月 火 13:3015:10- NLP.app 17:0019:00- DMLA 水 木 金 CJE 言論マップ 研究会 DMLA 研究会 D-Math FSNLP 21:0023:00 機械翻訳のみなさん木曜日空いてます! 土曜日も空いています!(参考: SICP勉強会) M1のみなさん夜は長いです! (東「D-Mathが2時間で終わると思うなよ」) 土 12 これからやりたいこと 2009年就職活動の事後報告 小町守はいまこんなことを考えています 13 多様・大規模データを駆使して、ことばの意味を 理解するための方法論を確立し、実アプリケー ションに展開する。 統計的かな漢字変換エンジン ChaIME 日本語述語項構造解析器 SynCha 研究者が何をやっているのか、どのような基準で 行動しているのか参与観察し、研究者・エンジニ アと社会のよりよい関係を築く。 生駒日記 http://d.hatena.ne.jp/mamoruk/ Twitter http://twitter.com/mamoruk/ 修士の仕事のまとめ: 述語項構造解析の 基礎と応用をしました 14 ヲ ガ 【文外】 リスク管理の必要性が強く叫ばれているが、市 場の実態が把握できていないため打つ手がな いのが実情。 項構造=誰が、何を、どうする(述語) 事態性名詞=行為・状態・出来事を指す名詞 →機械翻訳に応用しました (SOV型の日本語をSVO型の英語の語順に並べ替える前処理) 博士の仕事のまとめ: リンク解析を自然言 語処理に適用した手法を提案しました 15 語義曖昧性解消・意味カテゴリ獲得・対訳辞書構築 →類似度を計るためにリンク解析で用いられている 関連度計算手法(正則化ラプラシアン)を適用 主な貢献 ❀従来法の問題点をグラフ理論的に説 明(改善法→関連度計算活用) ❀関連度計算手法が適用可能な自然 言語処理のタスクを示した ❀大規模ウェブデータから知識獲得 ……しかしこれまでの研究は人手で 作成したデータに依存しています 16 語義曖昧性解消 Senseval/Semeval WordNet/Hinoki Treebank/日本語語彙大系 述語項構造解析 京都テキストコーパス4.0/NAIST 語彙概念構造辞書 テキストコーパス リリースまで4年 仕様作成ミーティング(毎週) =priceless ……やっぱりコストがかかる! そこで、これからの研究は正解データも 自動的に獲得します 17 WBC 検索 世界ボクシング評議会 クリックログから分かる 白血球 ワールド・ベースボール・クラシック ワールド・バリスタ・チャンピオンシップ テキスト処理に、多様で大規模なデータ 処理を組み合わせます。 18 Web テキストは書き手が飽和すれば成長は鈍化 →テキスト量頼みだと行き詰まる 今後情報爆発していくのはログデータやセンサー データなど非テキストのデータ →テキスト量は等差数列的にしか増えないが、ログ データは等比数列的に増える(増やせる) 今から始めておけば、並列処理のノウハウなど含め、 先行者利益を得られる こういう技術は高度な情報検索や 予測入力に使えます 19 “空気を読む” 検索エンジン・入力インタフェース そばが食べたい…… ふ… め… ね… ねる 蕎麦人はどうですか? GPS データによる 絞り込み 過去の行動履歴 から自動で判断 分かち書き以外にアプリケーションで使わ れる水準の要素技術を研究しましょう 20 要素技術 形態素解析(分かち書き) 構文解析(係り受け) 意味解析(述語項構造) 文脈解析(文を超えた関係) 精度 99% 90% 70% 60% 文正解率にすると5割 ボトムアップな解析は行き詰まっています →トップダウンな解析も必要です 解 析 の 流 れ このあたり 8割くらい にしたい ウェブデータを用いて意味・談話(文脈) 解析を次のレベルに押し上げます 21 自然言語処理研究のよくないところ テキストデータ以外使わない 応用先を(あまり)想定しない 改善案 使える知識は使う(e.g. アンカーテキスト、ヘッダ) →意味解析、談話解析 大規模知識獲得 (ウェブ上の知識の インデクシング) 進化したテキスト処理でウェブスケールの 大規模知識獲得を推し進めます 22 従来研究 これからの研究 “Microsoft acquired Powerset.” acquire モノとコトの関係 モノとモノの関係 bought コトとコトの関係 このテーマの研究に必要なものが いくつかあります 23 NTT研究所、NEC研究所、… 分析対象とするデータ →Web テキスト、ブログデータ、検索クエリログ、ク リックスルーログ、セッションログ、変換ログ、etc… 計算機資源 NAIST、… →大規模分散並列処理環境(ハードウェア、ソフト ウェア、運用能力、プログラミング能力) 人! →研究者(自然言語処理、データマイニング、機械 学習、etc…)、エンジニア、ユーザ みなさんの力が必要です! 24 自然言語処理の応用勉強会へ! 25 日 時: 毎週 月曜日15:10第1回: 4月26日月曜日15:10- お待ちしております! まだもうちょっと続きます 26 これから先生きのこるためには WebDB Forum 2009 「インターンシップと産学連携の可能性」 第42回情報科学若手の会 「海外インターンシップのすすめ」 企業でのインターンシップ・ 共同研究で研究の仕方を学びました 27 研究員の方々と議論を通じて有益なコメント・アド バイスをいただけました 研究所: 統計的機械翻訳のワークショップに参加 (旅行会話の翻訳=2006年、特許翻訳=2008年) NTT 企業の中のデータを利用できました Research: 検索クエリログの活用 ヤフー研究所: 検索クリックスルーログの活用 Microsoft 企業の中にいないと作れない製品を作りました Apple Inc.: iPhone や Mac に使える統計的IMEの研究 →インターンシップに行きましょう リーマンショック以降 就職氷河期と言われるこのご時世。。。 28 インターン =恋愛結婚 えーマジ○○!? ○○が許されるのは小学生までだよねー 29 期間 問題 回数 インターン 数週間 個人 =恋愛結婚 数ヶ月 ジョブマッチング =お見合い結婚 数回 家族 何回 でも! 順番 好きになって から一緒に 一緒になっ できれば てから好き 1回で に M.K. さん(32) 「自分インターンシップには4回行きましたよ。サイコーで した。何回行ってもいいですね。海外にも2回行きました。 超オススメです。恋愛結婚? 何人かと付き合いました がいまは妻ひとすじですね!」 ケーススタディ1: NTT 研究所(M1-D2) 30 2005年8-9月 学外プロジェクト実習(横須賀) 2006年 共同研究(旅行会話の機械翻訳のコンテ ストに参加)→初国際会議発表(12月) 2007年 共同研究(Wikipedia からの対訳辞書構 築……成果なし) 2008年 共同研究(特許翻訳の機械翻訳のコンテ ストに参加)→国際会議発表(12月) 2009年1月 就職活動 ご縁は大切に! ケーススタディ2: Microsoft Research (M2-D1) 31 2006年2月 応募→不戦敗 諦めないで! 2007年1月 応募→電話面接(30分x2回、英語)、 翌日オファー、ビザの手続きやチケットの手配 2007年5月 渡米 最初の1ヶ月サーベイ、真ん中の1ヶ月実装&実験、 最後の1ヶ月国際会議投稿&マニュアル作成 2007年8月 帰国→国際会議アクセプト 2007年10月 論文誌投稿→アクセプト 2007年12月 学振内定→結婚 2009年1月 就職活動(→×) 32 ケーススタディ3: ヤフー研究所(D2-D3) わらしべ長者! 2008年1月 国際会議で研究員の方から誘われる 2008年9月 共同研究開始→月1回1週間程度東 京オフィスに行き、サーベイ 2009年2-4月 赤坂にウィークリーマンションを借り てもらって実装・実験 2009年3月 就職活動 2009年4月 国際会議投稿→アクセプト 2009年5月 研究会発表→学生奨励賞 2009年6月 論文誌投稿→アクセプト 33 ケーススタディ4: Apple Inc. (D3) 種を蒔いておく! 2007年10月 CICP(学内コンペ型実習)で統計的 かな漢字変換エンジンを作る 2009年1月 Mixi と Twitter 経由で誘われる 2009年2月 応募→電話面接(20分x1、日本語)、 1週間でオファー、ビザの手続きやチケットの手配 2009年5月 渡米 最初の1ヶ月サーベイ 真ん中の1ヶ月実装&テスト 最後の1ヶ月プレゼンテーション 2009年9月 帰国→就職活動 インターンシップ、こんな人にお勧めです! 34 こんな人にお勧め 自分の働く姿が想像できない 企業の中にあるデータ・人・などなどを見てみたい 玉砕覚悟でチャレンジできる向上心がある こんな人には向いていない 言われたことをただやるだけ コミュニケーション 人の言うことを聞かない 仕事(人生)を楽しめない 能力があれば大丈夫 本日のポイント 35 「自然言語処理の応用勉強会」つくりました。どうぞ ご参加ください 多様で大規模なデータを用いた自然言語処理を考 えています 学生さん一度はインターンシップに行くといいですよ わらしべ長者! ご縁は大切に! 質問・ご意見・ご感想などどうぞ。 諦めないで! 種を蒔いておく! ご清聴ありがとうございまし た。 自然言語処理の応用勉強会へ! 37 日 時: 毎週 月曜日15:10第1回: 4月26日月曜日15:10- お待ちしております! 今度は本当におしまいです
© Copyright 2024 ExpyDoc