知識発見特論 吉岡真治 どのような情報抽出を実現したいですか? 時系列を考慮した情報抽出 – スポーツ選手の最新の所属や背番号といった時間と ともに変化する情報を追跡する。 どれが最新かを判定することが難しい。 多言語情報 – 世界のサッカーの結果など世界中のスポーツの情報 をまとめて表示する。多言語で有用なサイトを探すと 共に、日本語に翻訳する必要がある。 就職情報 – いろいろな企業から地域、職種、カテゴリーなどの情 報を抽出して整理することで、希望する職を見つけや すくする。地域に支社があるのと本社があるのでは意 味が違うこともあるので、そのあたりも考慮できるよう にする。 どのような情報抽出を実現したいですか? 重要な情報の抽出 – TF・IDFなどの簡単な指標では判断できない重要な情 報を抽出したい。 曖昧性の解消 – 複数の意味を持つ単語の意味を抽出する。 意味の候補+文脈の解釈が必要。 質問応答 – サポートセンターの代わりになるようなものができれ ばよい。不具合の状況の説明などから読み取ればよ い。 どのような情報抽出を実現したいですか? 評判情報 – 商品の使い勝手と性能の情報を抽出する。評価指標 を決めるのが難しいかもしれない。 感情や意見を持つ検索 – 検索結果に含まれる「意見」や「感情」を理解して、対 話の中で「感想」や「意見」などを付加して答える。 聞いてみたいこと 感情・極性などの必ずしも知識として扱われてい ない情報の抽出について最新の動向を知りたい 。 検索エンジンの未来は?また、どのように評価す るのか? 世界から見た日本でのニュースの重要度 YouTube等の動画の映像内容からの情報抽出と かがあれば聞いてみたい。 レポート課題 Report メールで提出([email protected]) – メールの本文中に下記の記述を入れること • 行の先頭から class:: kd number:: 1 studentID:: 03154 name:: CS太郎 • studentIDには学生証番号の数字部分を記入のこと 紙の場合 – 6階の吉岡の部屋の前のポストへ – 課題(吉岡)というタイトルと、名前,学生証番号を忘れずに記載してくだ さい。 課題 – 特定の目的(自由に設定可)に役立つ情報をWeb上から集めて提供す るシステムの構成を説明せよ。実際に実現可能かどうかについての制 約はあまり考える必要はないが、考えられる技術的課題(どのような技 術を利用するのか、どのような情報の存在を仮定するのか、など)は必 ず説明すること 提出期限:2/12(水)
© Copyright 2024 ExpyDoc