情報科学

メディア計算機工学特論 2003 年度
Webにおける情報・知識の探索と検索の事例を
とおして、現代的知識ベースとその利用法を理解
する。
そのための、要素技術としての、関係・演繹データ
ベース,情報検索,データマイニングを学ぶ。
1. スケジュール:
a.
イントロ(本日)
b. 関係・演繹DBの復習
c.
類似性検索システムの事例紹介
d. データマイニング
2. [email protected] まで,氏名,学
生番号,所属,学年をメールすること。
3. 成績: レポートと試験。
4. 出欠もとります。
本日の内容: 情報検索・抽出を行う一つのシステム事
例を用いて「データベース」を概観する
Web ブラウザ: internet のHPを見るためのソフトウエア。
HTML : 多くのHPで採用されているページ記述言語。何をどう見せ
るかを、この言語仕様に基づいて記述する。
閲覧者: HTMLで記述されたHPをブラウザで眺めている。
HTML文書検索: 閲覧するだけでなく、膨大なページから欲しい情報に
アクセスする行為
Web マイニング: アクセスするだけでなく、アクセスした結果から有用
な知識を獲得する行為
情報抽出とデータベース
HTML文書(Web ブラウザで見ているものの実体)
形式言語+自然言語+各種の references
講義項目: 情報の表現
HTML文書検索: (検索は情報処理の基本)
形態素解析…. 「自然言語」(語の集まりとしての言語感)
HTML構文解析 ….. 形式言語理論
演繹データベース ….. データベースとマイニング
KDD(知識発見)
Web マイニング
システムの概要
類似度計算を用いたHTMLの情報抽出・
検索システムの構築
W.Cohen氏のシステム“WHIRL”
基本的に文書を演繹データベースとみなし,
演繹DBに対する質問処理過程が検索。
<html>
HTML文書
と
ブラウザ
<head>
<title>映画リストSA</title>
</head>
<body>
<table border=1>
<tr><td>作品名<td>主な出演者・時間他<td>簡単ストーリー・コメント<td>勝手に評価満点
6点
<tr><td>ザ・インターネット,THEINTERNET<td>サントラブロック,ジェノミーノーザム,1995年
114分,<サスペンス><td>ひきこもり的な生活を送るコンピューターアナリストがインター
ネットを通じて政府の重要機密の場所にアクセスしてしまって全てを失った彼女は犯罪者に
仕立てられて社会から終われる身になる,5年前の作品ですがあってもおかしくない話になっ
てきました。<td>4点
<tr><td> …. <td> …..
</table>
</body>
</html>
ここでは特に、表やリストの構造に注目:
経験則: 重要なことは表・リストでまとめてあ
る場合が多い。
システム全体の流れ
HTML群
テーブルから
データ抽出
茶筅
DB1
DB2
形態素解析
スコア順に
並べて
ユーザに
出力
閾値以上の
スコアを持つ
データを出力
重
要
度
計
算
DB3
類似度計算
・
質問処理
ユーザから
の質問
形態素解析
と
辞書
ひきこもり的な生活を送るコンピューターアナリスト
がインターネットを通じて政府の重要機密の場所に
アクセスしてしまって全てを失った彼女は犯罪者に
仕立てられて社会から終われる身になる,5年前の
作品ですがあってもおかしくない話になってきました。
ひきこもる
的 生活
送る
形態素解析: 文を辞書見出し語として登録されている語に分解
する操作
接辞(接頭語、接尾語)、活用、複合語の処理などが必要で辞書
の情報量と語への分解戦略にも依存。
経験則
ひきこもる
的
生活
( 10,……,
2,……, 1,…...
送る
)
出現回数
経験則 TF: よく出現するものは、より重要
出現回数(頻度)の大小でわかる。
経験則 IDF: 他の文書に出現しにくいものは、そ
の文献に固有であるがゆえに、重要である。
文献集合としてどのようなものを考えているか
にも依存する。
重要度計算について
TF: text中の語tの頻度(出現回数)
IDF:
全ての text 数
語tが含まれている text 数
語tの重要度 (各 text 毎に決まる)



vt  log TFvt  1  log IDFvt
短いテキストでは
log( TF  1)
log IDF   log p  0

は0 か1
情報量
重要度: 語 t が含まれている場合、その情報量
テキストベクトルの類似性
テキストベクトル: 語の重要度のベクトル
text1:ひきこもり的な生活を送る ……
ベクトルの挟み角で、texts 間の
類似性を計測する。 「text1 ~ text2」
text2 : 退屈な日常的生活に疑問を
もつジョーは……….
重要度のベクトル:
TFのみの場合の例示
text3
(1,1,1)
…. 生活 …. 日常 …. 引きこもり
生
活
text2
(0,1,1)
Text 1
日常
次元縮約
軸の評価・生成
(主成分分析など)
(1,0,0)
引きこもり
シソーラス
外延データベース
各々のHTML文書がどのような基本情報を持つかを基本事
実で示したもの。
EDB(外延DB):
Fact-4(html-id, table-id, arg1,….,arg4).
fact-4(h100, table4,
“ザ・インターネット”,
st101,
“ひきこもり的な生活を…話になってきました”,
st103)
IDB(内包DB):
ルールの集合。和や積を用いた質問が可能。
ビュー (内包ルール)
ans(Movie) :- 批評(Movie,Crit).
動作例
批評(Movie, Crit) :fact-4(_,_,Movie,_,Crit,_),
Crit ~“三谷幸喜監督作品”.
Crit が表すテキスト(のベクトル)とテキスト“三谷幸
喜監督作品”(のベクトル)が類似している。
その評価は数値(ベクトルの類似度)で返る。
表のタプルデータ、 テキストの類似性
類似度から答え Movie には点数がつけられる。
ビューの獲得:
正事例と負事例を分類できる,ルールを抽出するタスク。
分類問題 ….. 分類器の構成と適用
決定木,回帰木,
帰納論理プログラミング,
ビューの条件部が複雑になる場合に有効。
統計的学習: SVM
ベクトル空間における非線形分離問題を高次元空
間における線形分離問題に帰着させる。
軸(属性)を増やすわけだから,一般に性能は良い
が,新たな軸の解釈問題がある。
融合技術・統合化・
個々の要素技術の深化
自然言語処理
HTML文書の構造(形式言語処理)
情報検索(語の重要度・関連度・類似性)
データベース操作(演繹データベース)
今日、情報コンテンツとその表現・表示のためには、様々な要
素技術が使われている。今回の例、マルチメディアDB、複合
文書等々。したがって、幅広い勉強をしておく必要がある。