Gfdnavi:地球流体物理科学者のためのデータ アーカイブサーバ構築支援ツール データ属性の探索的検索を 利用する検索 重川 美咲子† 堀之内 武‡‡ 西澤 誠也‡ 渡辺 知恵美†† †お茶の水女子大学理学部情報科学科 ‡京都大学数理解析研究所 ‡‡京都大学生存圏研究所 ††お茶の水女子大学大学院人間文化創成科学研究科 研究背景 地球観測のための測定機器 の高機能化、コンピュータの 高性能化 →多種多様なデータを様々な手 段で取得できるように 科学者が個々に持つ地球流 体科学データが増加 <科学者たち> ・自らが保有するデータから必 要なデータを検索したい 作業コストや学習コストが ・科学者同士で互いに公開し かかる 2007年度卒論発表会 合いたい 2 研究目的 地球流体物理科学者が個人で持つ膨大なデータ に対して、低コストで尚且つ簡単に検索・公開を 実現できるツールを開発! 地球流体物理科学者のための データアーカイブサーバ構築支援ツール Gfdnaviの開発 3 2007年度卒論発表会 Gfdnavi 科学データを検索・分析・可視化することが可能 ローカルサーバで自分用に自分のデータを扱う Webサーバ上でWebサイトとして利用可能 可視化画面 4 検索画面(属性) 2007年度卒論発表会 検索画面(tree view) 科学データの属性定義 科学データ のメタデータ n Time_attributes and Spatital_attributes n 1 Node m 1 id name path データ属性のネーミングについて 規定されていない ファイルに保存されているデー タの種類や、生成者の方針に よって異なる属性 5 start_time end_time lb_longitude lb_latitude rt_longitude rt_latitude 時間属性&空間属性 →全ての科学データが持つ重要な属性 n Keyword_attributes 時間属性&空間属性以外 →キーワード属性 2007年度卒論発表会 name type value ...etc. 先行研究の検索インタフェース [柳平 2007] キーワード属性に 対する全文検索 空間領域 指定 空間領域の指定 はGoogleMap上 をドラッグするこ とでも可能 時間領域 指定 結果リスト 表示 絞込み検索を繰り返し、 該当データが100件以下 になったら適合率の高い ものから順に表示 6 2007年度卒論発表会 問題点① 公開者によってデータの属性名が異なる場合がある しかし・・・ キーワードによる検索がユーザ入力形式 求めるデータのキーワード属性をユーザが知らない場合… 7 2007年度卒論発表会 キーワード検索を有効活用しにくい 問題点② 多くのデータの中から必要なものを見つけ出すとき →検索結果を比較しながら絞込みを重ねたり、やり直したり 等が有効 しかし・・・ 先行研究のインタフェース →空間領域以外の条件では絞込み検索を重ねることが不 可能 必要としているデータに たどり着くことができない可能性が高い 2007年度卒論発表会 8 新しいインタラクションモデル の提案 二つの問題点を踏まえ、新しいインタラ クションモデルの提案と実装 新しいモデルを実装した新しい検索インタフェースを これから”Gfdexplorer”と呼ぶ 9 2007年度卒論発表会 探索的検索 求めるものがはっきりとしていない場合: 1回の検索で必要としているデータを得るのは困難 絞込みの繰り返し、やり直し、結果同士の比較や組み 合わせ等により徐々に求めるデータに近づいていく 絞込み 絞込み 結果1 絞込み 結果2 戻る 絞込み 結果4 絞込み 結果3 容易な探索的検索を促す →ユーザが検索しやすいUI 結果5 比較 絞込み対象データ 10 絞込み 比較 結果6 2007年度卒論発表会 結果7 結果5+結果6 新しい検索インタラクションモデル 条件を使うか 使わないか クエリセット=1回の検索セット中に使用された条件 ○ ○ × ○ ○ ・・・ 絞 込 み 条 件 1 絞 込 み 条 件 2 絞 込 み 条 件 3 query query query 分類 分類 分類 データセット 分類・グルーピング リスト表示 閲覧& 絞込み条件選択 11 絞 込 み ・・・ 条 件 4 ・・・ 結果セット 結果セット 結果セット user 2007年度卒論発表会 ユーザは表示されるリストから 絞込み条件を選択すればよい Gfdexplorer キーワード属性 属性名の下にそ の属性値を表示 属性名、属性値 の後ろにデータ 数を表示 属性名 例) 『属性名“long_name” = 属性値“Dew_point_temperature”』 という条件で絞込みをする 属性値 12 2007年度卒論発表会 Gfdexplorer 空間属性 データを3種類に • all covered • partial covered • point GoogleMap上で 検索範囲指定 13 指定した範囲 の座標表示 2007年度卒論発表会 結果の座標 表示 Gfdexplorer Query Conditions 検索条件の編集 使用している絞込 み条件を全て表 示 チェックボックス のチェックを外す と検索条件から除 外 14 [K]:キーワード検索 [S]:空間属性検索 [T]:時間属性検索 2007年度卒論発表会 Gfdexplorer /sa mpl es Results データは意味の あるDirectoryに まとめられている 場合がほとんど Directory別にパ ス表記 15 sonde_o peration al ・・・ std_pl ev 91165. spl.nc 2007年度卒論発表会 76805. spl.nc ・・・ クエリヒストリ クエリセット のid 検索のid 該当データ数 id querytype user _id time description queryset _id conditions count cash ed 1 keyword 1 2007-12-30 18:16:46 [K]long_name= Dew point temperature 1 name = ‘long_name’ and value= ‘Dewpoint temperature’ 15 1 2 space 2 2007-12-31 11:17:32 [S](88.59375, -33.72433966174759) -(258.75, 47.517200697839414) 2 longitude_lb <= 258.75 and longitude_rt >= 88.59375 and latitude_lb <= 47.517200697839414 and latitude_rt >= -33.72433966174759 and not(node_id IS NULL) 63 0 3 keyword 1 2007-12-31 16:27:52 [K]long_name= station latitude 3 name = ‘long name’ and value = ‘station latitude’ 15 1 4 keyword 1 2007-12-31 16:28:47 [K]standard_name= latitude 3 name = ’standard_name’ and value = ‘latitude’ 15 1 5 keyword 1 2007-12-31 16:29:06 [K]units=degree north 3 name = ‘units’ and value = ‘degree north’ 15 1 検索の種類 16 ユーザのid 検索した時 間 Query Conditions 2007年度卒論発表会 に表示 検索条件の詳細 キャッシュされ ているかどうか キャッシュ機能(1/2) 検索の高速化を図る データベース内にcashテーブルを用意 例)新しく行った絞込みの追加されるクエリセットidが3 →”cashテーブル中のクエリセットid=3”かつ“QueryConditions 部でチェックされているもの”を探す →それらと新しい条件のANDを取ったものを検索結果とする キャッシュデータがいたずらに増えてしまうかも 17 使用する絞込み条件の数とクエリセットの数に 上限を設ける 適合するデータが全体に対して設定された割合 以下の場合のみ保存 2007年度卒論発表会 キャッシュ機能(2/2) id querytype user _id time description queryset _id conditions count cash ed 1 keyword 1 2007-12-30 18:16:46 [K]long_name= Dew point temperature 1 name = ‘long_name’ and value= ‘Dewpoint temperature’ 15 1 2 space 2 2007-12-31 11:17:32 [S](88.59375, -33.72433966174759) -(258.75, 47.517200697839414) 2 longitude_lb <= 258.75 and longitude_rt >= 88.59375 and latitude_lb <= 47.517200697839414 and latitude_rt >= -33.72433966174759 and not(node_id IS NULL) 63 0 全データに対して 適合率が高い =うまく絞込めていない 3 keyword 1 2007-12-31 16:27:52 [K]long_name= station latitude name = ‘long name’ and 3 →キャッシュに保存しない value = ‘station latitude’ =cashedの値は0 15 1 4 keyword 1 2007-12-31 16:28:47 [K]standard_name= latitude 3 name = ’standard_name’ and value = ‘latitude’ 15 1 5 keyword 1 2007-12-31 16:29:06 [K]units=degree north 3 name = ‘units’ and value = ‘degree north’ 15 1 18 2007年度卒論発表会 まとめと今後の課題 地球流体物理科学者のためのデータアーカイ ブサーバ構築支援ツール:Gfdnavi データ属性を利用した容易な探索的検索を促 す 新しい検索インタラクションモデルの提案 インタフェースの実装 <今後> Webサービス化のための実装 より利用しやすいUIに向けた実装 19 2007年度卒論発表会 おわり ご清聴ありがとうございました 20 2007年度卒論発表会 Faceted Navigation(補足) グルーピングされた属性値リスト ×をクリックすると、その属性の絞り込み のみ取り消すことが可能。 絞り込み結果の表示 ユーザへの絞込みのための “ヒント”になる! 21 ファセットナビゲーションを活用すると、ユーザが 簡単に効率的な探索的検索を行うことが可能な 検索インタフェースができる! 2007年度卒論発表会 キャッシュ機能(補足) 絞込みの度に親子関係をチェックするのは時間がかかる キャッシュに一度行った検索を保存 “条件1AND条件2” ⇒bが適合する A B 条件1 C Directory Aの 属性を受け継ぐ D 条件2 a b 22 c d 2007年度卒論発表会 e それぞれ一つ上の 階層のDirectory (B or C or D)の 属性を受け継ぐ =Directory Aの属性も 引き継ぐ Webサービス化の提案(補足) ユーザが作成したプログラム中で実行したい場 合も考えられる。 問 合 せ 関 数 ユーザが実装した 分析プログラム 1990年~ 2006年の毎年 7月南極上空 の全データに 対して適用し たい デ ー タ XML デ ー タ 問 XML 合 23 気象庁 せ 関 数 NASA Gfdexplorer で検索 2007年度卒論発表会 Gfdexplorer(補足) 時間属性 データを3種類に • all covered • partial covered • point バーでstart time とend timeを指定 し、絞込み領域設 定 24 点データ 領域を持 つデータ 2007年度卒論発表会
© Copyright 2024 ExpyDoc