卒研プレゼミナール - 学術情報センター

授業計画
卒研プレゼミナール
言語処理研究室 (第2回)
Language Processing Laboratory
芝浦工業大学 工学部 情報工学科
杉本 徹
2016年11月16日
前回もらった質問への答え(1)
• 自然言語処理全般について
• 第1回(11/9)
– 自然言語処理(NLP)の概要
– 研究分野紹介
• NLPの基礎技術
• 自然言語対話システム
– 研究室紹介
• 第2回(11/16)
– 研究分野紹介
• Web言語情報処理
– 研究テーマ紹介
前回もらった質問への答え(2)
• 対話システムについて
– 自然言語処理の研究で最近ホットなものは?
– タスク指向型と雑談対話システムの研究の違いは?
– 自然言語処理のビジネス応用例は?
– タスク指向型システムはどこで使われているか?
– 主にどんな言語の研究が行われているか?
– 雑談対話システムにおける親近感の評価方法
– 自然言語処理と機械学習の関係は?
– 雑談対話システムのユーザ満足度を高めるには?
– 自然言語処理とテキストマイニングとの関係は?
– ライフログ対話システムは入力の手間が面倒では
– ユーザインタフェースや人間工学との関係は?
– 対話システムでユーザの感情を読み取る方法
– ユーザの悩み相談に応じる対話システムは作れる?
前回もらった質問への答え(3)
• 卒業研究について
前回もらった質問への答え(4)
• 卒業研究について
– 卒業研究テーマを自分で決めるのは難しくないか?
– 研究室に入る前に勉強しておくべきことは?
– 卒業研究の共同研究(2人1組など)について
– プログラミングができないと厳しいか?
– 過去に外部の企業との共同研究はあったか?
– 勉強会やゼミでどのような本・論文を輪講するか?
– ゼミが行われる時間,回数
– 研究室の雰囲気は?
1
1年前期「情報工学通論」 資料より
自然言語処理の研究と情報工学科カリキュラムの関係
研究テーマ決定までの日程
12月,1月
2月~3月
自然言語処理
顔合わせ
研究テーマ相談
進路相談
研究分野
決定
希望研究テーマ発表会
論文輪講(自由参加)
Java 講習会(3日間)
4月~7月
グループゼミ(週1回)
書籍・論文輪講(週1, 2回)
7月末
前期末発表会
モデル化のツール
3年次
研究テーマ
決定
2年次
自然言語処理
データ解析法
人工知能
ソフトウェア工学
パターン認識
H.C.インタラクション
数理論理学
システム化の基礎
モデル化の内容
コンパイラ
高度情報演習
データ構造とアルゴリズム
プログラミング言語論 基礎情報演習
形式言語とオートマトン
1年次
離散数学
確率論と情報理論
プログラミング入門
8
今日の内容
1.研究分野紹介
③ Web言語情報処理
1.研究分野紹介
③ Web 言語情報処理
2.来年度の卒研テーマ候補の紹介
3.まとめ
杉本研における研究の全体像
杉本研の研究テーマ
1. 自然言語処理の基礎技術
応用(1)
応用(2)
対話型ユーザ・
インタフェース
Web 情報の
知的活用
意味の理解・処理技術
ソフトウェア技術
Java,XML,ネットワーク,
DB,エージェントなど
– 言語の意味を扱う技術の開発・改良
言語資源
(EDR等)
オントロジー
(Semantic Web)
言語の意味
2. 自然言語対話システム
– 言語を使った親しみ易く個人化されたインタフェース
3. Web 言語情報処理
– Web上に蓄積された知識・知恵の活用技術
言語理論
対話的応答
4. その他(ニーズ指向の研究)
– 言語を使った日常的な知的活動の支援
2
World Wide Web の現状と課題
• Web 上の情報量が増える一方で,
– 役に立たない情報も多い
– 関連する情報が複数のサイトに分散
対策
Webページの意味内容を反映した情報処理
技術を開発することにより,
– ユーザの負担が小さい高精度な情報検索
– 複数のサイトに分散した関連情報の統合
を実現する
• 増え続ける情報の海に溺れるユーザ
– 有用な情報にたどり着くまでの手間が増大
– Web の恩恵を活用し切れない
Web 言語情報処理とは?
• Web ページの文章を意味解析することにより,
• 情報処理技術(データベース,ネットワーク)
• 人工知能,自然言語処理
研究例1: 情報の全体像を把握するために
– 情報検索の精度を高める
• 同種の情報をグループ化するとともに,異種の情報
についてはそれらの関係の種類を明らかにすること
で,膨大な量の情報を整理し,扱いやすくする
– Web 上にある様々な有益な知識・知恵を活用でき
るようにする
• 体系的知識(ontology)を利用した研究例
– Web 上の情報を基に,言語解析の能力を高める
(例: 辞書項目の自動的追加)
– 「学習項目オントロジーに基づく情報工学教材の体系化」
(情報処理学会大会2012,および STANS09 で発表)
• クラスタリングを利用した研究例
– 「Web上のレシピ情報のクラスタリング」
– 「ブログのクラスタリングと観点付与」
情報工学教材の体系化・検索・推薦
• Web上にある講義資料などの教材を,学習分
野に関する知識(オントロジー)を用いて体系
化し,検索・推薦できるようにする
ブログのクラスタリングと観点付与
トピック:育児
育児について詳しく書かれ
ているブログを探したい!
保育園
離乳食
Web上の
講義資料など
検索
玩具
教材情報DB
赤ちゃん
育児を検索クエリとして
ブログを検索
キーワード
抽出
対応付け
学習項目・領域
の知識
(オントロジー)
枠内は観点の例を表す
3
研究例2: 有用な情報の抽出
• 単語の出現頻度だけでなく,言葉のつながりと意味を
ふまえて,有用な情報と有用でない情報を区別する
小説レビューにおける有用と思われる情報の選別
抽出条件を決めるために,レビュー文から有用と
思われる情報を手作業で抽出し,情報の種類ごと
に分類する.その後,抽出条件を決定する
• 研究例
– 「小説選択を支援する情報のレビューからの抽出」
•ユーザタイプ
•他作品との比較
•悪かった点
•良かった点
•著者情報
•メディア化情報
– 「ユーザの気分・状況に適した楽曲の推薦システム」
– 「ブログ記事からのローカルスポット情報の抽出」
「お出かけ情報」の抽出
• 観光地(例:金閣寺)に関する情報
– 近くの「錦鶴」は湯豆腐がおいしい
– 室町ファンなら等持院もお勧め
– 「陸舟の松」は素晴らしい
• ローカルスポット(例:こども図書館)の情報
– 床暖房の床で本が読める
– 大型絵本のコーナーが充実している
– 駐車場は余裕ある
抽出条件
研究室メンバーによる研究紹介
• M2 易迪君
「ニュース記事を用いた株価動向の予測」
• 4年 浅見君
「Word2vecを用いた会話の話題に対する
連想語の取得」
杉本研の研究テーマ
1. 自然言語処理の基礎技術
2.来年度の卒研テーマ候補
の紹介
– 言語の意味を扱う技術の開発・改良
2. 自然言語対話システム
– 言語を使った親しみ易く個人化されたインタフェース
3. Web 言語情報処理
– Web上に蓄積された知識・知恵の活用技術
4. その他(ニーズ指向の研究)
– 言語を使った日常的な知的活動の支援
4
研究テーマ1: 自然言語処理の基礎技術
研究室内で利用可能な言語資源
「言語の意味を扱う技術の開発・改良」
• 統計的手法を用いた意味解析(語義曖昧性解消,
意味役割付与,指示性推定,照応解析など)
• EDR辞書と他の言語資源を併用した意味解析
• 日本語文の述語論理式への変換
• 観点に依存した単語間の類似度計算
• 単語の連想のモデル化
• 形容詞や感性語の意味のモデル化
• 形態素解析や係り受け解析の改良
など
研究テーマ2: 自然言語対話システム
•
•
•
•
•
•
•
•
•
EDR電子化辞書(単語,概念,共起,コーパス)
NTT 日本語語彙大系
国語研 分類語彙表
毎日新聞記事コーパス(3年分)
Web上のテキストの N-gram データ(Google)
京大格フレーム辞書
理研対話コーパス
岩波国語辞典コーパス
現代日本語書き言葉均衡コーパス など
親近感を与える雑談対話システムのイメージ
「言語を使った親しみやすく個人化されたインタフェース」
• 「知ってる君」 プロジェクト
おはよう!
今日の予定は?
– Webの情報を利用して対話を行うエージェント
ユーザ
会話経験による
会話ロボット
学習・成長
感情,人格
• 対話を通じて成長する雑談対話システム
(パーソナリティ)
• 感性語を使い,感情をもった対話システム
一般常識
• 音声認識に用いる言語モデルの構築手法
– 対話領域に適した言語モデルを効率的に構築する
• コミュニケーションロボットとの音声対話
会話内容の理解・記憶
新しい話題の提供(Web)
など
研究テーマ3: Web言語情報処理
研究テーマ4: その他(ニーズ指向の研究)
「Web上に蓄積された知識・知恵の活用技術」
• 有用なブログの発見,クラスタリング
• ブログからのお出かけ情報の抽出
• CGM(例:レビュー記事,twitter,ブログ)からの
気になる情報の抽出,要約,推薦
• 特定の話題に関する Web 上の情報の要約
• 時事ニュースを用いた株価動向予測
など
• 言語を使った日常的な知的活動の支援
– 文章作成の支援
• 単語や句の用例検索,文章校正支援,英作文支援
– 学術文書(論文など)からの有用な情報の抽出
• 専門用語の抽出・検索,共起傾向の分析
→ 文献調査の支援
– 講義映像の視聴支援
• 日本語講義(留学生向け)や英語講義(日本人向け)の
要約字幕作成,講義内容要約作成
5
来年の卒研テーマ候補(まとめ)
自然言語
対話システム
Web 言語情報
その他の応用
有用な情報の発見
文書作成支援
(用例検索・校正・
ブログの分類
「知ってる君」
英作文支援)
お出かけ情報抽出
雑談対話
学術情報抽出
情報の要約
感性語,感情
講義映像視聴支援
株価動向予測
音声認識,ロボット
3.まとめ
自然言語処理の基礎技術
統計的意味解析,辞書利用,論理式変換
単語の類似度,連想,形容詞の意味
研究室の方針
• 研究テーマは教員と相談して決める
期待する卒研生は・・・
• プログラミングが好き,またはスキルを磨きたい人
• 自然言語と関連する研究テーマ
• 要プログラミング(Java が中心,C なども可)
• ゼミへの出席を重視
• 年度末に学会発表を目指す
• 大学院進学希望者歓迎!
• 最先端の夢のある研究に取り組む意欲のある人
ソフトウェアと人工知能の技術をフルに活用して,
人間の知能の本質に迫る10年先,20年先
を見据えた奥深い研究に挑戦しませんか?
成績評価
• 出席(ミニッツペーパー×2回)およびレポートにより
評価する
• レポート課題
以下の内容について,1,200文字程度(MS Word または
PDF)にまとめて提出せよ.
プレゼミで紹介した以下の研究テーマのうちいずれか1つ
を選び,それについて考えたこと(考察)を書け.
(1) NLP の基礎技術(第1回で紹介)
(2) 自然言語対話システム(第1回で紹介)
(3) Web 言語情報処理(第2回で紹介)
提出方法: メールに添付して提出(sugimoto@~)
提出期限: 11月30日(水)
6