スライド 1

能動的リソースマイニングに基づく
異種情報統合基盤の研究
研究代表者: 北川博之(筑波大学)
情報源
情報源
情報源
情報源
情報源
情報源
情報源
情報源
情報源
情報源
情報源
リソース
マイニング
情報源
情報源
情報源
情報源
マイニングと
情報統合に
関わる応用研究
能動性
拡張性
分散環境
への適応
能動的統合基盤
情報源
情報源
情報源
主要研究テーマ
リソースマイニングに基づくアプローチ
→ 知識発見と情報統合の融合
情報源
情報源
情報統合による
新たな価値の創造
分担者: 天笠俊之, 森嶋厚行(筑波大学) 石川佳治(名古屋大学)
リソース
マイニング
リソース
マイニング


情報源
 情報爆発の時代を迎え,情報統合の
重要性は増加
 しかし,一方で情報統合はますます
困難に…
情報源
情報源
 Webからのオブジェクトに関する動的/非公式な情報抽出に対する需要
情報源

 Webから人物に関する非公式な呼び名(呼称)を抽出する
本研究における比率規則
 応用例:ある人物に関する口コミ・最近の話題を掲載したblog記事を発見する
 サポート:タプル全体に対
イナバウアー・クールビューティー
etc.
“prefix” ”呼称候補”
”呼称候補” ”suffix”
Y
2種類の線形関係を
個別に捉えている
ゴジラ・ゴジラ松井 etc.
呼称集合
比率規則
集合
実験結果(ワインデータベース)
サポート・確信度を最大とする
最適比率規則を抽出
松井秀喜
2.隣接パターンの抽出
類似した
比率規則
をクラスタ
リング
 確信度:区間Iのタプル中,
比率規則に従うものの割合
荒川静香
3.呼称候補の評価
パラメータ
する割合
ポチ・純ちゃん・ライオンハート
etc.
最適
サポート/
確信度
区間の
抽出
×
×
比率規則に従うタプルの割合を用い
てサポートと確信度を定義
小泉純一郎
Web
サーチエンジン
“prefix”フルネーム”suffix”
拡張性を有する能動的情報
統合基盤システム
候補
パラメータ
を絞り込む
入力
データ
線分とその近傍で比率規則を表現
実験結果
“呼称候補”ことフルネーム

提案手法の概略
複数の線形関係が混在したり,一部
分でのみ線形関係が成り立つ場合で
も抽出可能
(掲示板やWeblogからの商品レビュー、評判情報抽出)
関連オブジェ
クト名

比率規則マイニング
XMLデータに対するOLAP
連続的クラスタリング
同一オブジェクト(人物)の同定
話題構造マイニング
移動体統計情報抽出
能動的情報統合のための
基盤システムの研究開発
サポートと確信度の概念を導入
 口コミ的な性質の強いWeb情報源では、1つのオブジェクトが様々な呼び方で参照される
1.呼称候補の抽出


…
データ中の比率規則の抽出
フルネーム

比率規則マイニングに関する研究
Webからの人物の呼称抽出
 背景
手法の概要

DBと連携した文書情
報源からの情報抽出
Web連続的モニタリン
グによるページ移動先
探索
・統合対象の発見:情報源マイニング
・動的変化:連続的マイニング
・様々な情報源:異種データマイニング
・複数情報源:クロスリソースマイニング
→ 情報源統合の高度化
 情報源の数と規模
 情報源の異種性
 情報源の動的変化,動的情報源
マイニングのための
要素技術に
関する研究
比率規則
坂本龍一
教授 etc.
X
I
話題構造マイニング
XML-OLAP XMLデータの多次元分析
文書集合から、主要な話題の抽出や特定の話題にアクセスしたいというニーズの高まり
 XMLデータ上での複雑な分析処理の必要性
サーチエンジンの検索結果
●XQueryには “GROUP BY” が存在しない
実データには,全文書がいずれかのクラスタに属するというクラスタリングの前提が当てはまらない
XMLデータの多次元分析XML-OLAPの
研究・開発
クラスタへの割り当て情報以外に得られる情報がない
⇒ 上記のニーズに即した話題構造マイニングの提案
提案手法
●XMLデータ上の多次元キューブの形式的定義
アウトライア
・全文書をいずれかのクラ
スタに割当
・クラスタ割り当ての情報
のみ
クラスタ
Core Node of
topic “AUMLYNCH”
Supplemental
Nodes of
topic “AUMLYNCH”
監視
ページ移動先探索に関する研究
 Webページの移動により生じるリンク切れの問題に着目
 ロボットによりWebページ群を監視し,リンク切れを発見
したときにWebページの移動先を探索
移動先発見
システム
pexp
E
5
14
E
●大規模リポジトリへの適用
1
/sales/area/kansai/osaka/b
39
48
E
1
/sales/area/kansai/osaka/b
49
58
E
1
/sales/area/kansai/kyoto/b
61
70
E
1
/sales/area/kansai/kyoto/b/t
63
64
T
2
/bookinfo
1
72
E
2
/bookinfo/c
2
35
E
2
/bookinfo/c/c/b/p
10
11
T
1000
2
/bookinfo/c/c/b/p
44
45
T
2000
2
/bookinfo/c/c/b/p
66
67
T
3400
2
/bookinfo/c/c/b/t
61
64
T
F
pexp
(1)移動
key
key
value
/sales/kansai/tsukuba/b
A
2
/bookinfo/c/c/b/p
A
1000
1
/sales/kansai/tsukuba/b
D
did
2
/bookinfo/c/c/b/p
pexp
D
2000
1
/sales/kansai/tsukuba/b
C
2
/bookinfo/c/c/b/p
C
8000
1
/sales/kanto/osaka/b
C
2
/bookinfo/c/c/b/p
C
8000
1
/sales/kanto/osaka/b
B
2
/bookinfo/c/c/b/p
B
3000
1
/sales/kanto/kyoto/b
F
2
/bookinfo/c/c/b/p
F
3400
2
能動性をもつ情報統合基盤システム
 外部関数呼び出し機構やアプリケーション記述のためのJava APIによる拡張性
情報統合基盤
システム
12万リンクを対象とした実験結果
実験結果
大学Aの
研究室一覧
60%
40%
更新
大学Aの
研究室
アプリケーション
プログラム
問合せ要求記述
問合せ解析器
相関ルール
マイニング
API
外部関数
呼び出し
機構
メディエータ
4倍の
差
ラッパー
ラッパー
ラッパー
カメラ
メール
ラッパー
ラッパー
ラッパー
RDBMS
XMLDB
20%
0%
インデックスサーバ
インデックスサーバー
WISHシステム
Google, Yahoo!,
MSN全てを利用 WISHシステム
Web
センサー,タグ
マイニング
モジュール
問合せ結果
イベント通知
80%
F
1
1
(2)リンク切れ
監視対象
Webページ群
value
SQL
did
-(構造化)テキストデータ
100%
移動
74
/sales/area/kanto/tsukuba/b
 データ到着やタイマーに連動し,イベント駆動で能動的に各種統合処理を実行
(3)発見
“ありそうな場所”に着目した探索
大学Aの
研究室
type
1
1
 ストリーム等を含めた情報統合基盤:StreamSpinner
Webコンテンツ一貫性維持のための
Web Web
ページ ページ
post
/sales
XPath
 非数値属性の取り扱い
Web連続的モニタリングによるページ移動先探索
 ページの位置関係
 リンクオーソリティの利用
 他ページの
移動情報の利用
Fact Path: pf: doc(“sales.xml”)//b
Dimension Path:
pd: doc(“bookinfo.xml”)//b[t=pf/t]/p
 複雑かつ多様な
グルーピング操作
Shared node
・主要な話題に関するクラスタのみを
抽出
・話題間の関係,クラスタの中心的な
話題と各文書の関係等を抽出
-値ベースの概念階層
とXMLの階層構造の組合せ
pre
1
2
 多様な概念階層のサポート
提案手法を文書集合の可視化に利用した例
Core Node of
topic “AUMMATSUMOTOSARIN”
経路
アプローチ
 研究課題
クラスタの主題に最も近い文書
クラスタの主題に関する文書
クラスタの主題とやや異なる内容を含む文書
特定のクラスタに属しない文書
文書
did
●XPath, XQueryによる問合せ処理が中心
クラスタリングの利用・・・以下のような問題点が挙げられる
クラスタリング
Relational World
 現状
従来の解決法
クラスタ
XML World
●多次元分析,意思決定支援,etc.
RSSリーダで取得した最新ニュース群
知識発見
データ
クリーニング