第7回 最近の話題

知識発見特論
吉岡真治
どのような情報抽出を実現したいですか?

時系列を考慮した情報抽出
– スポーツ選手の最新の所属や背番号といった時間と
ともに変化する情報を追跡する。
どれが最新かを判定することが難しい。

多言語情報
– 世界のサッカーの結果など世界中のスポーツの情報
をまとめて表示する。多言語で有用なサイトを探すと
共に、日本語に翻訳する必要がある。

就職情報
– いろいろな企業から地域、職種、カテゴリーなどの情
報を抽出して整理することで、希望する職を見つけや
すくする。地域に支社があるのと本社があるのでは意
味が違うこともあるので、そのあたりも考慮できるよう
にする。
どのような情報抽出を実現したいですか?

重要な情報の抽出
– TF・IDFなどの簡単な指標では判断できない重要な情
報を抽出したい。

曖昧性の解消
– 複数の意味を持つ単語の意味を抽出する。
意味の候補+文脈の解釈が必要。

質問応答
– サポートセンターの代わりになるようなものができれ
ばよい。不具合の状況の説明などから読み取ればよ
い。
どのような情報抽出を実現したいですか?

評判情報
– 商品の使い勝手と性能の情報を抽出する。評価指標
を決めるのが難しいかもしれない。

感情や意見を持つ検索
– 検索結果に含まれる「意見」や「感情」を理解して、対
話の中で「感想」や「意見」などを付加して答える。
聞いてみたいこと




感情・極性などの必ずしも知識として扱われてい
ない情報の抽出について最新の動向を知りたい
。
検索エンジンの未来は?また、どのように評価す
るのか?
世界から見た日本でのニュースの重要度
YouTube等の動画の映像内容からの情報抽出と
かがあれば聞いてみたい。
レポート課題 Report

メールで提出([email protected])
– メールの本文中に下記の記述を入れること
• 行の先頭から
class:: kd
number:: 1
studentID:: 03154
name:: CS太郎
• studentIDには学生証番号の数字部分を記入のこと

紙の場合
– 6階の吉岡の部屋の前のポストへ
– 課題(吉岡)というタイトルと、名前,学生証番号を忘れずに記載してくだ
さい。

課題
– 特定の目的(自由に設定可)に役立つ情報をWeb上から集めて提供す
るシステムの構成を説明せよ。実際に実現可能かどうかについての制
約はあまり考える必要はないが、考えられる技術的課題(どのような技
術を利用するのか、どのような情報の存在を仮定するのか、など)は必
ず説明すること

提出期限:2/12(水)