授業計画 卒研プレゼミナール 言語処理研究室 (第2回) Language Processing Laboratory 芝浦工業大学 工学部 情報工学科 杉本 徹 2016年11月16日 前回もらった質問への答え(1) • 自然言語処理全般について • 第1回(11/9) – 自然言語処理(NLP)の概要 – 研究分野紹介 • NLPの基礎技術 • 自然言語対話システム – 研究室紹介 • 第2回(11/16) – 研究分野紹介 • Web言語情報処理 – 研究テーマ紹介 前回もらった質問への答え(2) • 対話システムについて – 自然言語処理の研究で最近ホットなものは? – タスク指向型と雑談対話システムの研究の違いは? – 自然言語処理のビジネス応用例は? – タスク指向型システムはどこで使われているか? – 主にどんな言語の研究が行われているか? – 雑談対話システムにおける親近感の評価方法 – 自然言語処理と機械学習の関係は? – 雑談対話システムのユーザ満足度を高めるには? – 自然言語処理とテキストマイニングとの関係は? – ライフログ対話システムは入力の手間が面倒では – ユーザインタフェースや人間工学との関係は? – 対話システムでユーザの感情を読み取る方法 – ユーザの悩み相談に応じる対話システムは作れる? 前回もらった質問への答え(3) • 卒業研究について 前回もらった質問への答え(4) • 卒業研究について – 卒業研究テーマを自分で決めるのは難しくないか? – 研究室に入る前に勉強しておくべきことは? – 卒業研究の共同研究(2人1組など)について – プログラミングができないと厳しいか? – 過去に外部の企業との共同研究はあったか? – 勉強会やゼミでどのような本・論文を輪講するか? – ゼミが行われる時間,回数 – 研究室の雰囲気は? 1 1年前期「情報工学通論」 資料より 自然言語処理の研究と情報工学科カリキュラムの関係 研究テーマ決定までの日程 12月,1月 2月~3月 自然言語処理 顔合わせ 研究テーマ相談 進路相談 研究分野 決定 希望研究テーマ発表会 論文輪講(自由参加) Java 講習会(3日間) 4月~7月 グループゼミ(週1回) 書籍・論文輪講(週1, 2回) 7月末 前期末発表会 モデル化のツール 3年次 研究テーマ 決定 2年次 自然言語処理 データ解析法 人工知能 ソフトウェア工学 パターン認識 H.C.インタラクション 数理論理学 システム化の基礎 モデル化の内容 コンパイラ 高度情報演習 データ構造とアルゴリズム プログラミング言語論 基礎情報演習 形式言語とオートマトン 1年次 離散数学 確率論と情報理論 プログラミング入門 8 今日の内容 1.研究分野紹介 ③ Web言語情報処理 1.研究分野紹介 ③ Web 言語情報処理 2.来年度の卒研テーマ候補の紹介 3.まとめ 杉本研における研究の全体像 杉本研の研究テーマ 1. 自然言語処理の基礎技術 応用(1) 応用(2) 対話型ユーザ・ インタフェース Web 情報の 知的活用 意味の理解・処理技術 ソフトウェア技術 Java,XML,ネットワーク, DB,エージェントなど – 言語の意味を扱う技術の開発・改良 言語資源 (EDR等) オントロジー (Semantic Web) 言語の意味 2. 自然言語対話システム – 言語を使った親しみ易く個人化されたインタフェース 3. Web 言語情報処理 – Web上に蓄積された知識・知恵の活用技術 言語理論 対話的応答 4. その他(ニーズ指向の研究) – 言語を使った日常的な知的活動の支援 2 World Wide Web の現状と課題 • Web 上の情報量が増える一方で, – 役に立たない情報も多い – 関連する情報が複数のサイトに分散 対策 Webページの意味内容を反映した情報処理 技術を開発することにより, – ユーザの負担が小さい高精度な情報検索 – 複数のサイトに分散した関連情報の統合 を実現する • 増え続ける情報の海に溺れるユーザ – 有用な情報にたどり着くまでの手間が増大 – Web の恩恵を活用し切れない Web 言語情報処理とは? • Web ページの文章を意味解析することにより, • 情報処理技術(データベース,ネットワーク) • 人工知能,自然言語処理 研究例1: 情報の全体像を把握するために – 情報検索の精度を高める • 同種の情報をグループ化するとともに,異種の情報 についてはそれらの関係の種類を明らかにすること で,膨大な量の情報を整理し,扱いやすくする – Web 上にある様々な有益な知識・知恵を活用でき るようにする • 体系的知識(ontology)を利用した研究例 – Web 上の情報を基に,言語解析の能力を高める (例: 辞書項目の自動的追加) – 「学習項目オントロジーに基づく情報工学教材の体系化」 (情報処理学会大会2012,および STANS09 で発表) • クラスタリングを利用した研究例 – 「Web上のレシピ情報のクラスタリング」 – 「ブログのクラスタリングと観点付与」 情報工学教材の体系化・検索・推薦 • Web上にある講義資料などの教材を,学習分 野に関する知識(オントロジー)を用いて体系 化し,検索・推薦できるようにする ブログのクラスタリングと観点付与 トピック:育児 育児について詳しく書かれ ているブログを探したい! 保育園 離乳食 Web上の 講義資料など 検索 玩具 教材情報DB 赤ちゃん 育児を検索クエリとして ブログを検索 キーワード 抽出 対応付け 学習項目・領域 の知識 (オントロジー) 枠内は観点の例を表す 3 研究例2: 有用な情報の抽出 • 単語の出現頻度だけでなく,言葉のつながりと意味を ふまえて,有用な情報と有用でない情報を区別する 小説レビューにおける有用と思われる情報の選別 抽出条件を決めるために,レビュー文から有用と 思われる情報を手作業で抽出し,情報の種類ごと に分類する.その後,抽出条件を決定する • 研究例 – 「小説選択を支援する情報のレビューからの抽出」 •ユーザタイプ •他作品との比較 •悪かった点 •良かった点 •著者情報 •メディア化情報 – 「ユーザの気分・状況に適した楽曲の推薦システム」 – 「ブログ記事からのローカルスポット情報の抽出」 「お出かけ情報」の抽出 • 観光地(例:金閣寺)に関する情報 – 近くの「錦鶴」は湯豆腐がおいしい – 室町ファンなら等持院もお勧め – 「陸舟の松」は素晴らしい • ローカルスポット(例:こども図書館)の情報 – 床暖房の床で本が読める – 大型絵本のコーナーが充実している – 駐車場は余裕ある 抽出条件 研究室メンバーによる研究紹介 • M2 易迪君 「ニュース記事を用いた株価動向の予測」 • 4年 浅見君 「Word2vecを用いた会話の話題に対する 連想語の取得」 杉本研の研究テーマ 1. 自然言語処理の基礎技術 2.来年度の卒研テーマ候補 の紹介 – 言語の意味を扱う技術の開発・改良 2. 自然言語対話システム – 言語を使った親しみ易く個人化されたインタフェース 3. Web 言語情報処理 – Web上に蓄積された知識・知恵の活用技術 4. その他(ニーズ指向の研究) – 言語を使った日常的な知的活動の支援 4 研究テーマ1: 自然言語処理の基礎技術 研究室内で利用可能な言語資源 「言語の意味を扱う技術の開発・改良」 • 統計的手法を用いた意味解析(語義曖昧性解消, 意味役割付与,指示性推定,照応解析など) • EDR辞書と他の言語資源を併用した意味解析 • 日本語文の述語論理式への変換 • 観点に依存した単語間の類似度計算 • 単語の連想のモデル化 • 形容詞や感性語の意味のモデル化 • 形態素解析や係り受け解析の改良 など 研究テーマ2: 自然言語対話システム • • • • • • • • • EDR電子化辞書(単語,概念,共起,コーパス) NTT 日本語語彙大系 国語研 分類語彙表 毎日新聞記事コーパス(3年分) Web上のテキストの N-gram データ(Google) 京大格フレーム辞書 理研対話コーパス 岩波国語辞典コーパス 現代日本語書き言葉均衡コーパス など 親近感を与える雑談対話システムのイメージ 「言語を使った親しみやすく個人化されたインタフェース」 • 「知ってる君」 プロジェクト おはよう! 今日の予定は? – Webの情報を利用して対話を行うエージェント ユーザ 会話経験による 会話ロボット 学習・成長 感情,人格 • 対話を通じて成長する雑談対話システム (パーソナリティ) • 感性語を使い,感情をもった対話システム 一般常識 • 音声認識に用いる言語モデルの構築手法 – 対話領域に適した言語モデルを効率的に構築する • コミュニケーションロボットとの音声対話 会話内容の理解・記憶 新しい話題の提供(Web) など 研究テーマ3: Web言語情報処理 研究テーマ4: その他(ニーズ指向の研究) 「Web上に蓄積された知識・知恵の活用技術」 • 有用なブログの発見,クラスタリング • ブログからのお出かけ情報の抽出 • CGM(例:レビュー記事,twitter,ブログ)からの 気になる情報の抽出,要約,推薦 • 特定の話題に関する Web 上の情報の要約 • 時事ニュースを用いた株価動向予測 など • 言語を使った日常的な知的活動の支援 – 文章作成の支援 • 単語や句の用例検索,文章校正支援,英作文支援 – 学術文書(論文など)からの有用な情報の抽出 • 専門用語の抽出・検索,共起傾向の分析 → 文献調査の支援 – 講義映像の視聴支援 • 日本語講義(留学生向け)や英語講義(日本人向け)の 要約字幕作成,講義内容要約作成 5 来年の卒研テーマ候補(まとめ) 自然言語 対話システム Web 言語情報 その他の応用 有用な情報の発見 文書作成支援 (用例検索・校正・ ブログの分類 「知ってる君」 英作文支援) お出かけ情報抽出 雑談対話 学術情報抽出 情報の要約 感性語,感情 講義映像視聴支援 株価動向予測 音声認識,ロボット 3.まとめ 自然言語処理の基礎技術 統計的意味解析,辞書利用,論理式変換 単語の類似度,連想,形容詞の意味 研究室の方針 • 研究テーマは教員と相談して決める 期待する卒研生は・・・ • プログラミングが好き,またはスキルを磨きたい人 • 自然言語と関連する研究テーマ • 要プログラミング(Java が中心,C なども可) • ゼミへの出席を重視 • 年度末に学会発表を目指す • 大学院進学希望者歓迎! • 最先端の夢のある研究に取り組む意欲のある人 ソフトウェアと人工知能の技術をフルに活用して, 人間の知能の本質に迫る10年先,20年先 を見据えた奥深い研究に挑戦しませんか? 成績評価 • 出席(ミニッツペーパー×2回)およびレポートにより 評価する • レポート課題 以下の内容について,1,200文字程度(MS Word または PDF)にまとめて提出せよ. プレゼミで紹介した以下の研究テーマのうちいずれか1つ を選び,それについて考えたこと(考察)を書け. (1) NLP の基礎技術(第1回で紹介) (2) 自然言語対話システム(第1回で紹介) (3) Web 言語情報処理(第2回で紹介) 提出方法: メールに添付して提出(sugimoto@~) 提出期限: 11月30日(水) 6
© Copyright 2024 ExpyDoc