Document

サイエンティフィック・システム研究会
合同分科会 2015 年度会合
2015 年 10 月 30 日
資料
Linked Data によるオープンデータ活用技術
(株)富士通研究所
湯上 伸弘
[キーワード]
オープンデータ、ビッグデータ、Linked Open Data、機械学習、匿名化、セキュリティ
1.はじめに
本公演では、Linked Open Data(LOD)活用技術を中心に富士通研究所におけるオー
プンデータ活用に関する研究を紹介する。政府や自治体、あるいはそれに準ずる公的
な団体が、自らが保有するデータを公開するオープンデータの流れは英国や米国を中
心に進められてきたが、2013 年の G8 におけるオープンデータ憲章の合意を契機とし
て、日本を含めた多くの国々で積極的な取組みが始まっている。オープンデータは、
データを公開すること自体はもちろん重要ではあるが、公開されたデータが企業や市
民の活動に使われて初めて意味を持つ。そこで重要となるのが公開されたデータの機
械可読性である。World Wide Web の生みの親である Tim Berners-Lee が定めた「5
Star Open Data」は主にこの観点からオープンデータを評価する基準であり、その最
高レベルが Linked Open Data(LOD)である。LOD の最も大きな特徴は、他のデータ
セットの関連するデータへリンクを張ることが出来る点である。このリンクをたどる
ことで、複数のデータ保有者が公開した、様々な種類のデータを組み合せて利用する
ことが可能となる。
2.Linked Data 活用技術
LOD は大きな可能性を持つが、その活用にはまだ様々な課題も存在する。まず LOD
は個々のデータ保有者の Web サイトで公開されているだけであり、LOD に対する標準
的な処理言語である SPARQL による検索をサポートしていないサイトも多い。そのた
め必要なデータがどこにどのような形で公開されているかを知らないと利用すること
ができない。我々はこの課題を解決するため、
世界中で公開されている LOD を収集し、
一括して検索できるサービスである LOD4ALL を開発し公開している。もう一つの大
きな課題は、LOD 自体がまだまだマイナーな存在であり、オープンデータに占める
LOD の比率が低いことである。日本では一部の自治体や団体で LOD によるデータ公
開が始まった段階であり、本格的に普及するにはもうしばらく時間がかかる。そこで
我々は CSV 等の LOD 以外のデータを自動的に LOD に変換する技術を開発している。
前節で述べた通り LOD の最大の特徴は他のデータセットへのリンクの存在である。そ
のため LOD への変換は単なるデータ形式の変換ではなく、他のデータセット中のデー
タとの関係を自動的に判断しリンクを張る必要がある。我々は、データの内容と LOD
のリンクが形成するグラフ構造の両方に着目することで、データ間の関係を推定する
技術を開発し、この課題に取り組んでいる。この技術は、オープンデータだけでなく
企業が持つ様々な業務データとオープンデータを統合することで、企業活動の中でオ
ープンデータを活用する際にも有効な技術である。
3.「人」に着目したセキュリティ
オープンデータに限らず、これからのデータ活用で避けて通れないのがプライバシ
ー情報の扱いである。いわゆる個人情報以外にも、位置情報や購買情報等の個人に関
する様々な情報が収集されるようになり、それを使ったより良いサービスを実現する
ことが可能になってきている。しかしその一方で、個人に関するデータが量、種類の
両面で増加することで、それらが流出した場合の影響も高まっている。それを防ぐた
めには、匿名化や暗号化、セキュリティ等、様々な側面からの取り組みが必要である。
特に近年は、標的型メール等の、人のスキを突いた攻撃が増加しており、単に Firewall
やウィルスチェックなどの IT システムを守るだけでは不十分で、それを扱う人を含め
たセキュリティ、プライバシー保護を考える必要がある。本公演では、人の行動特性
を分析することで様々なリスクを評価し、それをセキュリティ対策に活かすための研
究を紹介する。
4.最後に
オープンデータとは、単に政府や自治体のもつデータを公開すればよいのではく、オ
ープンデータを活用し社会にとって魅力のあるサービスを作り出せて初めて意味があ
る。本公演で紹介した技術を使い、データの保有者やサービスを提供する企業と協力
し、オープンデータを企業や市民の活動に活かしていくための、オープンデータのエ
コシステム実現を目指していきたい。
以上