講演資料 - 共通語彙基盤整備事業

共通語彙基盤 コア語彙 2 (ver. 2.2)
独立行政法人情報処理推進機構
頃末 和義
コア語彙2 (バージョン2.2)リリース




コア語彙(HTML) http://imi.ipa.go.jp/ns/core/2/
コア語彙 XML スキーマ 名前空間: http://imi.ipa.go.jp/ns/core/2/
コア語彙 RDF スキーマ 名前空間: http://imi.ipa.go.jp/ns/core/rdf#
IEPD(情報交換パッケージドキュメント)
IEPDは、コア語彙を使って情報を交換するためのテンプレートです。









住所
地物
施設
避難施設
イベント
医療機関
氏名
設備
組織
 共通語彙基盤およびコア語彙に関するドキュメント
 共通語彙基盤概要 http://imi.ipa.go.jp/doc/IMI_Overview_v2.pdf
 コア語彙テクニカルガイドライン http://imi.ipa.go.jp/doc/IMI_Core2_TechGuide_v2.pdf
コア語彙とは
【コア語彙】
どのドメインでも広く利用される普遍的な語彙。「人」「氏名」「住所」「連絡先」「組織」「場所」「日
時」「日付」「建物」「施設」「座標」など、特定のものを表現する語彙から、「数量」「面積」「重量」
「長さ」「時間」「金額」のような計量のための基礎概念を表現する語彙まで含まれる。
【ドメイン語彙】
各ドメインでの利用に特化した語彙。ドメイン語彙の中で当該ドメインでのみ利用できる語彙を
「ドメイン固有語彙」、他のドメインでも参照することのできる語彙ではあるが、コア語彙に含ま
れないものを「ドメイン共通語彙」と呼び区別することもある。
地理空間
・施設
※ 語彙の設計や構造は、コア語彙に特化したもの
ではなく、共通語彙基盤の全ての語彙に共通です。
移動・
交通
病院
施設
駅
コア
語彙
場所
ドメイン
固有語彙
ドメイン
共通語彙
避難所
災害復旧費
財務
防災
語彙の設計方針








日本語の語彙とする
意味や構造は明確になるようにする
業界を越えての情報交換を可能にする
用途に応じて適した物理形式によるデータ交換・共有が可能とするため、特定の物理形式
に依存しないようにする
一部の項目を利用することや、項目を追加すること、他の語彙との併用が可能となるよう
にする
継承などにより、コア語彙など基本的な語彙を最大限活用できるようにする
既存システムの変更をすることなしに、データ交換の際に利用できるようにする
順次導入が可能なようにする
共通語彙基盤の語彙
共通語彙基盤の「語彙」は、一般的な「語彙」とは異なり、単純な言葉の集合ではなく、
ファイルやインターネットなどを介して行われるコンピュータ間のデータ通信を円滑かつ確実に
行うことを目的とした、意味や構造、言葉と言葉の関係などを明確にした言葉の集合である。
共通語彙基盤では、それぞれの言葉を「用語」と呼ぶ。
「用語」は、ある特定の意味あるいは概念を示すものであり、構造をもっています。「用
語」は、文字を組み合わせた表記である項目名(用語名)により参照される。また、用語は、そ
の意味あるいは概念を、用語や文字列などを型とするプロパティの集合として表現する。
たとえば、「期間」という用語を「開始日時」、「終了日時」、「説明」という下位の用語から
構成すると定義することができる。
•
期間
開始日時
終了日時
説明
用語の種類
 共通語彙基盤には、「クラス用語」と呼ばれる用語と「プロパティ用語」と呼ばれる用語の2
種類の用語があります。これらは、どちらも、言葉として意味をもっているので「用語」と呼
ばれますが、その構造は大きく異なります。
 クラス用語
用語の内、後述のプロパティ用語を子要素としてもつ構造を持った用語。他のクラス用語を拡張する
ことで、自身がもつプロパティ用語と拡張元のクラス用語がもつプロパティ用語の両方をもつクラス用
語を定義することも可能
 プロパティ用語
用語の内、クラス用語と他のクラス用語や値とを関連付けるもの。コア語彙においては、どのプロパ
ティ用語もそれぞれ一つ以上のクラス用語から参照される。
クラス用語
 項目名、説明、継承、及び、プロパティ用語の集合で構成される
 各プロパティに対して、カーディナリティ(出現数)とクラス用語における意味の説明をもつ
※ 「クラス用語」とは、項目名のことではないことに注意
クラス用語の継承




他のクラス用語を継承して新たなクラス用語を作成することができる
継承したクラス用語は、継承元のすべてのプロパティをもつ
継承したクラス用語は継承元にないプロパティを追加することができる
継承したクラス用語は継承元のクラス用語としても使用できる。例えば、データ型が「組
織」となっているプロパティには、「業務組織」の値を指定することができる。
継承
追加
プロパティ用語
 クラス用語を説明するためのクラス用語や値を表すための用語
 項目名、データ型、及び説明から構成される
 データ型はクラス用語の型かXMLスキーマで定義される基本型をとる
 クラス用語の子要素として使用される
用語の階層構造
 プロパティ用語のデータ型としてクラス用語を指定することができる。その場合、データ型
であるクラス用語がまたプロパティ用語をもつので、図のような概念的な階層構造をもつ
人
氏名
ic:氏名型
氏名
連絡先
ic:連絡先型
姓名
xsd:string
姓名カナ表記
xsd:string
:
:
:
:
連絡先
電話番号
ic:電話番号型
住所
ic:住所型
:
電話番号
:
:
住所
国
xsd:string
都道府県
xsd:string
:
:
:
データの作成とシリアライズ

「用語」は概念を定義するものであるため、実際に使用する際には、XMLやRDFなど目的に合った物理的なデータ表現形式を利用する。

共通語彙基盤では、このように物理的なデータ表現形式で表すことを「シリアライズ」と呼びます。

コア語彙2.2では、3種類のデータ表現形式をサポートする。
※ 同じ概念を表現する場合であっても物理形式毎にその表現方法が異なるため、異なる物理形式間での完全な変換を保障するものではない。



XML Schema形式
共通語彙基盤では、主にファイルによるデータ交換やデータ転送、及び集約型のマッシュアップなどに用いられることを想定
RDF Schema形式
共通語彙基盤では、主にネットワークを通したデータ間の関係性記述や、オープンデータの公開・活用に用いられることを想定
自然言語形式(XMLやRDF等の構造化仕様を用いずに、各用語の構造を自然言語に近い形式で表現する形式)
CSVデータのヘッダ等として利用される。主に、既存データからの変換やデータ作成の用途に用いられることを想定
(1)論理形式
コア語彙
シリアライズ
XML Schema
RDF Schema
(2)物理形式
自然言語
データ
XMLデータ
RDFデータ
CSVデータ等
物理形式の語彙を用いて
データを表現
(インスタンス化)
利用者が目的に合わせて
語彙のデータを利用
利用者A
利用者B
利用者C
コア語彙
 様々な分野のデータの中で共通に使用される用語で構成
 48個のクラス語彙と206個のプロパティ語彙
クラス語彙
物や事象を表す用語
 人
 施設
 駐車場
 建物
 組織
 法人
 業務組織





物や事象の説明を行う用語












氏名
住所
場所
座標
ID
ID体系
コード
コードリスト
名称
連絡先
アクセス
アクセス区間
 スケジュール
 イベントスケジュール
 定期スケジュール
 詳細スケジュール
 詳細スケジュール規則
 構成員
 施設関連
 事物
 実体
 状況
 組織関連
値に関する用語







重量
価格
期間
時間
人数
数量
長さ







イベント
製品
製品個品
地物
設備
面積
容量
電話番号
日時
日付
金額
測定値
コア語彙の利用イメージ
(分野に特化した
イベント)
分野別語彙
拡張
イベント
基本語彙
(追加情報1)
(分野に特化
した用語)
(追加情報2)
(文字列など)
場所
場所
スケジュール
住所
住所
地理座標
座標
イベント
スケジュール
開始時間
時刻
終了時間
時刻
コア語彙の使用イメージ




業界毎に言葉やデータ形式が異なっていても業界を超えてデータを共有可能
既存のシステムの大きな改変をせずにデータの共有ができる
必要な部分から順次導入が可能
項目の意味が明確になる
行政
製造者
名前
製品
住所
名称
製造者の氏名 製造者の住所
コード
製品の名称
製品のコード
製造者
消費者
製品名
業界団体
製品の名称
コード
製造者
製品のコード 製造者した
組織の名称
再販業者
商品名
商品コード
製品の名称
製品のコード
価格
入荷日
製造者
製造者の組織
の名称
出荷先
出荷先の組織
の名称
小売店
流通
14
今後の予定
•
語彙データベースの整備
–
•
ツールの整備
–
•
データの作成や変換を支援するツールなど、共通語彙基盤の語彙を容易に利用できる環境を整備する。
ID体系、コードリストの整備
–
•
語彙を検索したり、データテンプレートなどの共有を行う語彙データベースを整備する。
性別や地理座標フォーマットなど汎用的に使用されるコードリストを整備する。
ドメイン語彙の整備
ありがとうございました。