lecture

JaLTER Morpho講習会
基礎知識編
真板
(まいた
英一
えいいち)
2008/01/28,29
JaLTER Morpho講習会
1
本講義の目的と概要



対象・JaLTER参加サイトの情報管理者
目的・JaLTERのMetacat-Morpho処理系を操作
するに際して必要となる知識の習得

Metacat-Morpho処理系の操作に関する一般的な知
識

JaLTERにおけるシステム運用に特有の事項
JaLTER関係以外の方でも分かるように配慮して
お話しするつもりです。
2
LTERと情報マネジメント




Long-Term Ecological Research(LTER)
環境問題のスケールは時間的・空間的に拡大し
つつある
それに対応するため、長期・多地点の生態系観
測データが必要とされるようになった
生態系を長期間継続的に観測している研究サイ
トをネットワーク化してデータや方法論を共有し
ようという運動が始まる

1980年代 米国 USLTER

1990年代 国際組織 ILTER
3
LTERと情報マネジメント

2000年代 日本でもネットワーク化が進む

JaLTER(Japan LTER)ネットワーク

2006年11月 設立

2007年 8月 ILTER正式加盟

現在約30サイトが登録済み

森林・草地・湖沼・海洋など多様な生態タイプ

登録サイトは随時募集中(事務局長・柴田@北大)
4
5
LTERと情報マネジメント


LTERネットワークにおいて、情報管理は重要な
位置を占める。

空間的・時間的に広い、さまざまな種類の多量のデ
ータの収集・蓄積が必要

研究者間でのデータの共有化

比較研究のためのデータ形式の標準化
これらを可能とする情報管理システムの開発が(
主に米国で)進められており、既に実用レベルに
達している。
6
LTERと情報マネジメント

開発グループ KNB


Knowledge Network for Biocomplexity
開発物

EML: メタデータ書式標準化規格

Morpho: EMLデータセット作成ツール

Metacat: EMLメタデータカタログ

すべてオープンソース

KNBの他の開発物については小川・藤原(2007, 日
林誌89(5)) 参照
7
LTERと情報マネジメント

EML

Ecological Metadata Language

XML準拠で、生態学関連の情報の記述に特化

実体はXMLスキーマ

ガイドラインではなくて規格

規格に沿ったデータ(EML的に妥当なデータ)はコ
ンピュータで自動的に効率的に処理できる

ILTERでは既に標準として使われている
8
LTERと情報マネジメント

Morpho

ダイアログ形式でEML化されたデータを作成できる
クライアントアプリケーション

XML, EML の知識が無くてもEML的に妥当なデー
タが作成できる

Metacatと通信可能

Java で作られているため、プラットホームに依存しな
い(Windows, Mac, Linux)
9
10
LTERと情報マネジメント

Metacat

EMLで書かれたメタデータをカタログ化するサーバ
アプリケーション

データパッケージをアップロードしたり、検索したり、
ダウンロードしたりできる。

すなわち、データを収集・蓄積し、共有化するための
機能を提供する。
11
12
13
LTERと情報マネジメント


ILTERではメタデータ標準規格としてEMLを採
用している。
JaLTERでもEMLを採用することになった。

EML処理系としてMetacat-Morphoシステムを利用

国環研(つくば)にMetacatサーバを設置(現在、動作
テスト中)

参加サイトの情報管理者はMorphoを使って各自の
データをパッケージ化して国環研サーバにアップロ
ード
14
Metacat-Morphoのデータ構造

データ本体とメタデータの区別

データ本体 (entity)


観測データそのもの

観測値の数値データや種名リスト、画像など
メタデータ

データ本体についての情報

作成者、権利者、観測方法、場所、期間、など
15
Metacat-Morphoのデータ構造
データ本体

内容・多様



数値データ、文字デ
ータ、画像データ、空
間データ
形式・多様

メタデータ
エクセルファイル、画
像ファイル、GIS形式
内容・だいたい同じ


観測者、観測値、観測
時期、観測方法、ライ
センス情報
形式・共通化可能

EML規格による標準
化
16
Metacat-Morphoのデータ構造


データ本体よりもメタデータの方が重要

データ本体のみでは、そのデータがどの程度の利用
価値があるのか判断できない。メタデータがないと結
局データ本体も使いものにならない。

メタデータがあれば、データ本体そのものが無くても
、データ本体について概要を知ることができるし、入
手するために誰に連絡すればいいかわかる。
Metacat-Morpho処理系では、EML化されたメタ
データの処理が主なターゲットである。
17
Metacat-Morphoのデータ構造



Metacat-Morphoでは、データの処理を「データ
パッケージ」という単位で扱う。
データパッケージとは、メタデータと、それに関連
するデータ本体の全体
データパッケージの形態

メタデータと、データ本体そのもの

メタデータと、データ本体へのリンク

メタデータのみ
18
Metacat-Morphoのデータ構造


Morphoで扱うことができるデータ本体

表形式データ(csv, Excel)

画像データ(jpeg, etc)
現バージョンのMorphoでは未対応なもの

音声、動画などのマルチメディアデータ

空間データ(衛星データ、GIS)

EMLでは定義されているが、Morphoの開発が追い
付いていない状態。将来的には対応予定。
19
Metacat-Morphoのデータ構造

Morphoで入力するメタデータの項目

タイトル

要約

キーワード

作成者、連絡先

研究プロジェクト情報

使用権

データの空間的、時間的、分類学的範囲

観測方法
20
Metacatのデータ管理法

docid

document id (文書識別子)

データパッケージを識別するためのユニークな文字
列

書式 hogehoge.num.rev




hogehoge: サイトや人物を表す文字列
num: 通し番号
rev: リビジョン番号
例 maitadata.12.3
21
22
Metacatのデータ管理法

docid

リビジョン番号の違いは同じのパッケージの新旧を表
す



maitadata.12.3 よりも maitadata.12.4 の方が新しい
パッケージを修正しアップデートするごとにリビジョン番号
が大きくなっていく
通し番号は、パッケージを区別する。



maitadata.12.x は気象データ
maitadata.13.x は地形データ
パッケージを新規作成するたびに通し番号が増えて行く。
23
Metacatのデータ管理法

docid

メタデータとデータ本体のそれぞれにdocidが与えら
れる

データパッケージ maitadata.14.1




メタデータ maitadata.14.1
データ本体1 maitadata.15.1
データ本体2 maitadata.16.1
通し番号とリビジョン番号は、基本的にMorphoが自
動で管理してくれるので、ユーザが直接操作する必
要は無い。
24
Metacatのデータ管理法
JaLTERにおけるdocidの命名法

docidはユニークでなければならないので、情報
管理委員会の側から各サイトにdocidの割り当て
を行ないたい。

書式: jalter-(サイト名).num.rev

サイト名の部分は別紙参照

例 赤津 jalter-akazu.22.1
25
Metacatのデータ管理法
Morphoにdocidの接頭辞を指示する必要がある


Morpho上でプロファイルを作成する時に指定で
きる。
実技演習時に実際に入力して頂きます。
26
27
日本語の取り扱い




JaLTERはILTERに正式加盟したので、JaLTER
のデータコレクションが国際的に利用されること
を想定する必要がある。
データ、メタデータの記述言語をどうするか、とい
う問題
JaLTERが国際ネットワークの一員である以上、
英文の情報は不可欠
日本の国内ネットワークとして、実用上、日本語
情報が必須
28
日本語の取り扱い
データを作成する際の使用言語に関するJaLTER
のポリシー


メタデータ

英語/日本語の併記

英文優先(英文、日文の順で格納)
データ本体

可能な限り英文併記が望ましい

人員・予算を考慮して、可能な範囲で努力する
29
日本語の取り扱い
技術面



MetacatやMorphoは英語圏(米国)で開発された
ものなので、基本的に西欧語(latin-1)が前提に
なっている。
しかし、日本で独自の情報システムを構築する
以上、日本語のデータを、日本語で扱えなけれ
ばならない、と考える。
EML関連物の日本語化を行なっている。
30
日本語の取り扱い
Metacat-Morpho



開発言語がJavaなので、実はそのままでもある程
度は日本語データを扱うことが可能。(Javaは内
部エンコードがunicodeであるため)
日本語を完全に扱うにはソースコードに多少手
を入れる必要がある。
Metacatは既にコードを修正し、一通り日本語化
が終わった(日本語のデータ検索、表示を、日本
語の画面上ですることができる)。
31
日本語の取り扱い
Metacat-Morpho



Morphoは元から日本語の入力が可能なので、さ
しあたり実用に耐える。
しかし、これから多くの方にMorphoを使ってデー
タパッケージを作成して頂きたいので、操作画面
やメッセージを日本語化する必要がある。
現状は未着手。来年度の課題。
32
日本語の取り扱い
Metacat-Morphoマニュアル、EML関連文書等



データの品質向上には情報管理担当者の啓蒙・
スキルアップが重要
それを支援するために、ドキュメント類を和訳して
提供する
随時作業、web等で閲覧可能に。
33
JaLTERにおけるシステム運用

JaLTERのMetacat-Morpho処理系は、運用上の
制約により、Metacat-Morphoの機能を一部禁止
している。

Metacatサーバを国環研に設置

国環研のセキュリティポリシー


外部から内部サーバへの直接データ投入は禁止
そこで、MorphoからMetacatへの直接アップロー
ドを禁止し、FTPサーバを介してアップロードする
。
34
35
JaLTERにおけるシステム運用


FTPサーバ

JaLTER全体でひとつのアカウントの割り当て

後日パスワード等をお知らせしますが、他人数で共
用するので、管理には気を付けてください。
FTPサーバにアップロードされたデータを
Metacatサーバに回収する作業は、毎日深夜に
行なう予定。
36
JaLTERにおけるシステム運用



Morphoを使ってMetacat上のデータを検索したり
、MetacatからMorphoにデータをダウンロードす
ることは可能。
直接アップロード禁止の副作用で、データの作
成者がデータのアクセス権を制御することが技
術上不可能。従って、JaLTER Metacatサーバに
登録されたデータはすべて公開データ(パブリッ
クデータ)として扱われる。
提供するデータのライセンスに注意してください
。
37
JaLTERにおけるシステム運用




JaLTERでは、提供して頂けるデータは、基本的
にすべて受け入れる方針。
データ量があまりに膨大な場合は別途打合せ。
現バージョンのMorphoは、表形式データや画像
などの比較的サイズが小さいデータしか扱えな
いので、基本的に気にする必要はない。
マルチメディアデータや空間データなどの大容
量データを扱うには、直接EMLファイルを編集
する必要がある。
38
JaLTERにおけるシステム運用
データの公開範囲

当面はJaLTERネットワーク内部での公開

いずれ一般公開(時期未定)

IPアドレスでアクセス制限をかけるので、各サイト
で使用しているIPアドレスを後日お知らせくださ
い。
39
実技演習について
会場のネットワーク環境

有線、無線接続可能(お好みで)

DHCP(IPアドレスを自動で取得する)

サーバマシン


Morphoインストーラ
Metacat

FTP

各種ドキュメント
40
実技演習について
本日

コンピュータ起動

ネットワーク接続の確認

サーバコンテンツの紹介

Morphoインストール・初期設定

データパッケージ作成(簡単に)

FTPサーバにアップロード

Metacatでアップロード確認
41
実技演習について
明日

データパッケージ作成(詳細に)

Morphoで入力可能な全項目を入力

しかも可能な限り詳細に

英語力のある方は英文併記で

今回は練習なので日本語のみでも可

Morphoにはどんな入力項目があり、どのくらい詳細
に情報が記述できるか、その作業量・時間はどの程
度か、を体験することが目標
42
今後のスケジュール

1/28,29 本講習会

2/中旬 Metacatサーバ 試験運用開始

〜3/上旬 データ収集

3/中旬 サーバ公開のアナウンス@生態学会
43