科学データのデータ属性の探索的検索を利用した検索

Gfdnavi:地球流体物理科学者のためのデータ
アーカイブサーバ構築支援ツール
データ属性の探索的検索を
利用する検索
重川 美咲子†
堀之内 武‡‡
西澤 誠也‡
渡辺 知恵美††
†お茶の水女子大学理学部情報科学科
‡京都大学数理解析研究所
‡‡京都大学生存圏研究所
††お茶の水女子大学大学院人間文化創成科学研究科
研究背景
地球観測のための測定機器
の高機能化、コンピュータの
高性能化
→多種多様なデータを様々な手
段で取得できるように


科学者が個々に持つ地球流
体科学データが増加
<科学者たち>
・自らが保有するデータから必
要なデータを検索したい
作業コストや学習コストが
・科学者同士で互いに公開し
かかる
2007年度卒論発表会
合いたい
2
研究目的

地球流体物理科学者が個人で持つ膨大なデータ
に対して、低コストで尚且つ簡単に検索・公開を
実現できるツールを開発!
地球流体物理科学者のための
データアーカイブサーバ構築支援ツール
Gfdnaviの開発
3
2007年度卒論発表会
Gfdnavi

科学データを検索・分析・可視化することが可能


ローカルサーバで自分用に自分のデータを扱う
Webサーバ上でWebサイトとして利用可能
可視化画面
4
検索画面(属性)
2007年度卒論発表会
検索画面(tree view)
科学データの属性定義
科学データ
のメタデータ
n Time_attributes
and
Spatital_attributes
n
1
Node
m
1
id
name
path
データ属性のネーミングについて
規定されていない
ファイルに保存されているデー
タの種類や、生成者の方針に
よって異なる属性
5
start_time
end_time
lb_longitude
lb_latitude
rt_longitude
rt_latitude
時間属性&空間属性
→全ての科学データが持つ重要な属性
n
Keyword_attributes
時間属性&空間属性以外
→キーワード属性
2007年度卒論発表会
name
type
value ...etc.
先行研究の検索インタフェース
[柳平 2007]
キーワード属性に
対する全文検索
空間領域
指定
空間領域の指定
はGoogleMap上
をドラッグするこ
とでも可能
時間領域
指定
結果リスト
表示
絞込み検索を繰り返し、
該当データが100件以下
になったら適合率の高い
ものから順に表示
6
2007年度卒論発表会
問題点①

公開者によってデータの属性名が異なる場合がある
しかし・・・

キーワードによる検索がユーザ入力形式
求めるデータのキーワード属性をユーザが知らない場合…
7
2007年度卒論発表会
キーワード検索を有効活用しにくい
問題点②
多くのデータの中から必要なものを見つけ出すとき
→検索結果を比較しながら絞込みを重ねたり、やり直したり
等が有効

しかし・・・
先行研究のインタフェース
→空間領域以外の条件では絞込み検索を重ねることが不
可能

必要としているデータに
たどり着くことができない可能性が高い
2007年度卒論発表会
8
新しいインタラクションモデル
の提案

二つの問題点を踏まえ、新しいインタラ
クションモデルの提案と実装
新しいモデルを実装した新しい検索インタフェースを
これから”Gfdexplorer”と呼ぶ
9
2007年度卒論発表会
探索的検索


求めるものがはっきりとしていない場合:
1回の検索で必要としているデータを得るのは困難
絞込みの繰り返し、やり直し、結果同士の比較や組み
合わせ等により徐々に求めるデータに近づいていく
絞込み
絞込み
結果1
絞込み
結果2
戻る
絞込み
結果4
絞込み
結果3 容易な探索的検索を促す
→ユーザが検索しやすいUI
結果5
比較
絞込み対象データ
10
絞込み
比較
結果6
2007年度卒論発表会
結果7
結果5+結果6
新しい検索インタラクションモデル
条件を使うか
使わないか
クエリセット=1回の検索セット中に使用された条件
○
○
×
○
○ ・・・
絞
込
み
条
件
1
絞
込
み
条
件
2
絞
込
み
条
件
3
query
query
query
分類
分類
分類
データセット
分類・グルーピング
リスト表示
閲覧&
絞込み条件選択
11
絞
込
み ・・・
条
件
4
・・・
結果セット 結果セット 結果セット
user
2007年度卒論発表会
ユーザは表示されるリストから
絞込み条件を選択すればよい
Gfdexplorer

キーワード属性


属性名の下にそ
の属性値を表示
属性名、属性値
の後ろにデータ
数を表示 属性名
例)
『属性名“long_name” =
属性値“Dew_point_temperature”』
という条件で絞込みをする
属性値
12
2007年度卒論発表会
Gfdexplorer

空間属性

データを3種類に
• all covered
• partial covered
• point

GoogleMap上で
検索範囲指定
13
指定した範囲
の座標表示
2007年度卒論発表会
結果の座標
表示
Gfdexplorer

Query Conditions



検索条件の編集
使用している絞込
み条件を全て表
示
チェックボックス
のチェックを外す
と検索条件から除
外
14
[K]:キーワード検索
[S]:空間属性検索
[T]:時間属性検索
2007年度卒論発表会
Gfdexplorer
/sa
mpl
es

Results


データは意味の
あるDirectoryに
まとめられている
場合がほとんど
Directory別にパ
ス表記
15
sonde_o
peration
al
・・・
std_pl
ev
91165.
spl.nc
2007年度卒論発表会
76805.
spl.nc
・・・
クエリヒストリ
クエリセット
のid
検索のid
該当データ数
id
querytype
user
_id
time
description
queryset
_id
conditions
count
cash
ed
1
keyword
1
2007-12-30
18:16:46
[K]long_name=
Dew point temperature
1
name = ‘long_name’ and
value= ‘Dewpoint temperature’
15
1
2
space
2
2007-12-31
11:17:32
[S](88.59375,
-33.72433966174759)
-(258.75,
47.517200697839414)
2
longitude_lb <= 258.75 and
longitude_rt >= 88.59375 and
latitude_lb <=
47.517200697839414 and
latitude_rt >= -33.72433966174759
and
not(node_id IS NULL)
63
0
3
keyword
1
2007-12-31
16:27:52
[K]long_name=
station latitude
3
name = ‘long name’ and
value = ‘station latitude’
15
1
4
keyword
1
2007-12-31
16:28:47
[K]standard_name=
latitude
3
name = ’standard_name’ and
value = ‘latitude’
15
1
5
keyword
1
2007-12-31
16:29:06
[K]units=degree north
3
name = ‘units’ and
value = ‘degree north’
15
1
検索の種類
16
ユーザのid
検索した時
間
Query
Conditions
2007年度卒論発表会
に表示
検索条件の詳細
キャッシュされ
ているかどうか
キャッシュ機能(1/2)


検索の高速化を図る
データベース内にcashテーブルを用意
例)新しく行った絞込みの追加されるクエリセットidが3
→”cashテーブル中のクエリセットid=3”かつ“QueryConditions
部でチェックされているもの”を探す
→それらと新しい条件のANDを取ったものを検索結果とする

キャッシュデータがいたずらに増えてしまうかも


17
使用する絞込み条件の数とクエリセットの数に
上限を設ける
適合するデータが全体に対して設定された割合
以下の場合のみ保存
2007年度卒論発表会
キャッシュ機能(2/2)
id
querytype
user
_id
time
description
queryset
_id
conditions
count
cash
ed
1
keyword
1
2007-12-30
18:16:46
[K]long_name=
Dew point temperature
1
name = ‘long_name’ and
value= ‘Dewpoint temperature’
15
1
2
space
2
2007-12-31
11:17:32
[S](88.59375,
-33.72433966174759)
-(258.75,
47.517200697839414)
2
longitude_lb <= 258.75 and
longitude_rt >= 88.59375 and
latitude_lb <=
47.517200697839414 and
latitude_rt >= -33.72433966174759
and
not(node_id IS NULL)
63
0
全データに対して
適合率が高い
=うまく絞込めていない
3
keyword
1
2007-12-31
16:27:52
[K]long_name=
station latitude
name = ‘long name’ and
3
→キャッシュに保存しない
value = ‘station latitude’
=cashedの値は0
15
1
4
keyword
1
2007-12-31
16:28:47
[K]standard_name=
latitude
3
name = ’standard_name’ and
value = ‘latitude’
15
1
5
keyword
1
2007-12-31
16:29:06
[K]units=degree north
3
name = ‘units’ and
value = ‘degree north’
15
1
18
2007年度卒論発表会
まとめと今後の課題


地球流体物理科学者のためのデータアーカイ
ブサーバ構築支援ツール:Gfdnavi
データ属性を利用した容易な探索的検索を促
す


新しい検索インタラクションモデルの提案
インタフェースの実装
<今後>
 Webサービス化のための実装
 より利用しやすいUIに向けた実装
19
2007年度卒論発表会
おわり
ご清聴ありがとうございました
20
2007年度卒論発表会
Faceted Navigation(補足)
グルーピングされた属性値リスト
×をクリックすると、その属性の絞り込み
のみ取り消すことが可能。
絞り込み結果の表示
ユーザへの絞込みのための
“ヒント”になる!
21
ファセットナビゲーションを活用すると、ユーザが
簡単に効率的な探索的検索を行うことが可能な
検索インタフェースができる!
2007年度卒論発表会
キャッシュ機能(補足)


絞込みの度に親子関係をチェックするのは時間がかかる
キャッシュに一度行った検索を保存
“条件1AND条件2”
⇒bが適合する
A
B
条件1
C
Directory Aの
属性を受け継ぐ
D
条件2
a
b
22
c
d
2007年度卒論発表会
e
それぞれ一つ上の
階層のDirectory
(B or C or D)の
属性を受け継ぐ
=Directory Aの属性も
引き継ぐ
Webサービス化の提案(補足)

ユーザが作成したプログラム中で実行したい場
合も考えられる。
問
合
せ
関
数
ユーザが実装した
分析プログラム
1990年~
2006年の毎年
7月南極上空
の全データに
対して適用し
たい
デ
ー
タ
XML
デ
ー
タ
問
XML 合
23
気象庁
せ
関
数
NASA
Gfdexplorer
で検索
2007年度卒論発表会
Gfdexplorer(補足)

時間属性

データを3種類に
• all covered
• partial covered
• point

バーでstart time
とend timeを指定
し、絞込み領域設
定
24
点データ
領域を持
つデータ
2007年度卒論発表会