インテリジェントコンテンツに よる 情報の加工と利用

セマンティックオーサリングとPCML
産業技術総合研究所
サイバーアシスト研究センター
橋田 浩一
2004-04-24
サイバーアシスト研究センター
社会情報インフラに基づくグラウンディング
セマンティック(サイバー)世界
生活世界
セマンティックWeb
デジタル世界
概念的・社会的
側面
人
知的コンテンツ
出会い
情報
マルチエージェント
アーキテクチャ
ユビキタス
コンピューティング
モノ
基本ソフトウェア
近距離通信小型端末
2
物理的
側面
概要







3
知的コンテンツとオントロジー
特許情報の意味的構造化
意味構造に基づく情報検索
セマンティックオーサリング
共同セマンティックオーサリング
知識循環型社会
結論
知的コンテンツとオントロジー
知的コンテンツ
 意味構造を明示した情報コンテンツ
 コンピュータが具体的意味内容を理解
 文書、ビデオ、オーディオ、etc.
項
対象
意味構造を
明示した
文書は
対象
道具
対象
これを
5
処理が
コンピュータによる
等価
目的
用いた
意味検索も
対象
容易です
対象
可能です
例
知的コンテンツの利用
 内容の明瞭化

契約書、仕様書、特許、マニュアル、etc.
 正しい翻訳
 意味的検索

データベースの意味構造の精度が60%程度でも
検索の効率が倍増
 多様な観点と粒度での要約
 文章生成・言い換え


素人にもわかるように易しく
顧客にアピールするように魅力的に
 インタラクティブなプレゼンテーション

文章、スライド、マルチメディア、・・・
 マイニング

6
検索履歴も詳細な情報を含む
etc.
オントロジー
= 知識体系の形式的記述
属性
時点
クラス
研究活動
言語データ
概要
日付
実験
発表時
開始頁
整数
人
題目
発表
著者
終了頁
プレス発表
7
単行本の部分
雑誌論文
会議発表
リスト
登壇
発表者
オントロジーに基づく知的コンテンツ
・・・実体関係(ER)モデル
アノテーションに基づく
知的生産支援
研究センター3
2003-10-13
題目
概要
研究
センター長
所属
発表時
著者
会議発表102
人8616
登壇
発表者
電話番号
発表データベース
8
名前
人データベース
橋田浩一
国際標準化
MPEG-7: Moving Picture Experts Group
(ISO/IEC JTC1/SC29/WG11) Phase 7
意味内容に基づく検索
人が2人で連れ立って歩いているシーン
The Linguistic DS ← GDA タグ集合
MPEG-7第2版 (Amendment)
言語資源: ISO TC37/SC4
リエゾン: Linguistic DS等を包含する一般的
スキーマ
9
特許情報の意味的構造化
PCMLに対応するオントロジー
制限
構成要素+
記述
技術内容
属性
前提
請求項
クラス
オープン型
請求項
11
クローズ型
請求項
ジェプソン型
請求項
オントロジーに基づいて
構造化された請求項
(1)からイオン
aを引き出す
イオン源(1)
構成要素
質量分析装置0
構成要素
質量分析部(2)
構成要素
ジェプソン型
請求項A
構成要素
制限
(3)がcを検出して電気
信号として取り出す
構成要素
サブスリット(10)
電圧制御手段(12)
制限
制限
目的
(12)がV0の設定に
応じてVs、Vcをそれ
ぞれ決定する
12
制限
要件
要件
イオン電子コンバータ(4)
電子検出器(3)
(2)がaを
質量分離
(2)がイオンbを取り出す
構成要素
前提
制限
要件
(4)がbを電
子cに変換
要件
(2)と(4)の間に(10)を配置
付帯条件
Vs=V0-k1
Vc=V0-k2
V0 = (1)に印加するイオン引出電圧
Vs = (10)に印加する電圧
Vc = (4)に印加するコンバータ電圧
k1とk2は定数
(1)からイオン
aを引き出す
共参照の表示
イオン源(1)
構成要素
質量分析装置0
構成要素
質量分析部(2)
構成要素
ジェプソン型
請求項A
構成要素
制限
(3)がcを検出して電気
信号として取り出す
構成要素
サブスリット(10)
電圧制御手段(12)
制限
制限
目的
(12)がV0の設定に
応じてVs、Vcをそれ
ぞれ決定する
13
制限
要件
要件
イオン電子コンバータ(4)
電子検出器(3)
(2)がaを
質量分離
(2)がイオンbを取り出す
構成要素
前提
制限
要件
(4)がbを電
子cに変換
要件
(2)と(4)の間に(10)を配置
付帯条件
Vs=V0-k1
Vc=V0-k2
V0 = (1)に印加するイオン引出電圧
Vs = (10)に印加する電圧
Vc = (4)に印加するコンバータ電圧
k1とk2は定数
自然言語処理による解析・詳細化
イオンa
制限
質量分析部(2)
(2)がaを
質量分離
質量分離
制限
要件
(2)がイオンbを取り出す
対象
動作主
質量分析部(2)
動作主
イオンb
高精度の検索、要約、言い換え、翻訳
14
要件
取り出す
対象
フローチャートの自動生成
イオン源(1)
(1)からイオン
aを引き出す
イオンa
質量分析部(2)
(2)がaを
質量分離
(2)がイオンbを取り出す
イオンb
(4)がbを電 イオン電子コンバータ(4)
子cに変換
電子c
(3)がcを検出して電気
電子検出器(3)
信号として取り出す
電気信号
15
明細書の自動生成
 青字は定型表現の挿入
 その他細かい言い換え
イオン源(1)と、このイオン源(1)から引き出されたイオンを質量
分離する質量分析部(2)と、この質量分析部(2)で質量分離して
取り出されたイオンを電子に変換するイオン電子コンバータ(4)
と、変換された電子を検出して電気信号として取り出す電子検
出器(3)とを備える質量分析装置において、前記質量分析部
(2)とイオン電子コンバータ(4)との間に配置されたサブスリット
(10)と、イオン源(1)に印加するイオン引出電圧をV0、サブスリ
ット(10)に印加する電圧をVs、イオン電子コンバータ(4)に印加
するコンバータ電圧をVcとした場合に、Vs=V0-k1、Vc=V0-
k2 (ただし、k1、k2は定数)の関係を満たすように、V0の設定に
応じてVs、Vcをそれぞれ決定する電圧制御手段(12)を備えるこ
とを特徴とする質量分析装置
16
明細書と翻訳
検索質問Qのノードxごとに、リンクy-zが
データベースDに含まれてyのラベルがL
であるようなノードyとノードz∈F(x)が存
在するような、ラベルLのリストを、表示
部に表示する
displaying, on a display unit, a list of
labels L in which are present a node
誤った翻訳 z∈F(x) and a node y of which a link yz is contained in the database D and
of which the label y is L, for each of
the nodes x of a search question Q
17
読解支援と(自動)翻訳
検索質問Qの各ノードxについて、リストを
表示部に表示する
Lのリスト
yのラベルがLである。 z∈F(x)。
リンクy-zがデータベースDに含まれる。
displaying, on the display unit, a list
for each node x in retrieval query Q
正しい翻訳
List of L
The label of y is L. z∈F(x).
Link y-z is contained in database D.
18
意味構造に基づく情報検索
従来の情報検索
 検索要求を正確に記述できない検索質問
 キーワードの単純な組合せ
 関係する情報の抽出漏れ、無関係な情報
の過剰抽出
 ×文書中の特定の部分
 ×統計的に意味のない稀な情報
20
検索 = 意味構造の近似照合
 質問グラフとDBの部分グラフの間の類似性
質問: 「意味構造を
用いたインタラク
ティブな情報検索」
意味
DB
情報
インタラクティブ
…
知識
構造
シソーラス
構成
抽出
検索
用いる
21
…
利用
…
意味構造に基づく情報検索
 検索の困難: 検索質問と検索対象の間の
表現上の差異を埋める推論
 意味構造に基づくインタラクティブ検索
 意味ネットワーク間の近似照合
 質問改訂(類義語拡張等)のヒント
 意味構造の精度 → 検索の性能
 半自動的意味構造化の普及
22
質問改訂のインタフェース
意味的
依存関係
類義語
拡張
23
実験
 データベース

全自動解析した新聞記事10万件
 課題




メージャー首相に投票で勝った男の子
これから作る子会社が親会社よりも評価が高い
中国で海外からの資金の投資を得る地区
会がマスコミに報じられると電話が殺到
 結果
意味構造の利用 → 検索の時間と手間が半減
順位
24
時間 (分)
#操作
キーワードのみ
14.00
15.45
29.50
構造込み
1.50
7.50
7.33
セマンティックオーサリング
意味構造化のインセンティブ
著者・作業者のメリットが
 間接的でわかりにくい
 検索、翻訳、要約、言い換え、etc.
 直接的ですぐわかる
 発想支援
 セマンティックオーサリング
 キラーアプリケーション!
26
従来の文章による情報伝達
内容の復元に
多様な知識が必要
人間
伝えたい内容
文章作成
伝わる内容
文章
低精度
精度低
情報の欠落
順序化のコスト
27
人間
人間
伝わる
内容
コンピュータ
知的コンテンツによる情報伝達
内容の復元が楽
人間
伝えたい内容
セマンティック
オーサリング
粗粒度
知的
コンテンツ
伝わる内容
高精度
精度低
論理構造の保存
簡単な作業
意味処理可能
28
人間
細粒度
知的
コンテンツ
コンピュータ
人間
伝わる
内容
粗粒度知的コンテンツ
 セマンティックオーサリングの結果
 人間がわかりやすく作りやすい ・・・ 発想支援


伝えたい内容の構造を保存
文の順序等を決めなくてよい
対照
頭が痛い
薬を飲む
原因
頭痛 が治る
29
胃の調子が良い
原因
原因
細粒度知的コンテンツ
 粗粒度知的コンテンツの自動的詳細化
 検索、要約、翻訳など
良い
対照
対象
調子
項
原因
頭
対象
痛い
胃
原因
飲む
対象
原因
治る
30
対象
薬
セマンティックオーサリングは
文章作成より簡単(1/2)
対照
頭が痛い
薬を飲む
原因
頭痛 が治る
31
胃の調子が良い
原因
原因
セマンティックオーサリングは
文章作成より簡単(2/2)
 前頁の知的コンテンツと同じ内容の文章:
胃の調子が良かったが、頭が痛かった
*
ので薬を飲んだら治った。
 前頁の原因に相当する関係*を反映する
ように書き換えるのは大変:
胃の調子が良かったが、頭が痛かった。
胃の調子が良くて頭が痛かったので薬
を飲んだら頭痛が治った。
32
セマンティックオーサリング
に基づく文章作成
より良い文章が楽に作れる著作支援技術
コンテンツボトルネックの解消
発想支援による文章の品
質向上(八木下他 '98)
 見落としが少ない
 考えが深まる
自
動
的
対
応
33
作業の負荷軽減
 順序に縛られないコンテ
ンツ作成
 自動文章生成
段落
コンテンツの意味的アノテーションの精度が高ければ意味的検索
コンテンツの意味的アノテーション
の精度が高い。
また、検索の精度向上による収益の増加はアノテーション
アノテーションのコスト
をはるかに上回る。
したがって、検索はアノテーション
アノテーションを普及させるためのキラーアプリ
ケーションである。
34
オントロジーに基づく
セマンティックオーサリング
 介護文書の例
家庭での
介護状況
要素
息子
介護者
補助
動作
屈伸運動
対象
両下肢
35
介護の
内容
家庭での 息子により、両下肢
介護状況 の屈伸運動
共同セマンティックオーサリング
グループウェアによる議論の支援
駅前の違法駐
輪をなくしたい
解決案
解決案
駅の近くに駐輪
場を増設しよう
反論
それ は経済
効率が悪い
違法駐輪車をす
ぐに撤去しよう
撤去した自転車
を6ケ月間保管
せねばならない
保管 する場所
が足りない
原因
37
反論
原因
共同セマンティックオーサリング
 従来のグループウェア


IBIS, Coordinator, Open Meeting, etc.
合議の効率化と品質向上





蒸し返し防止
同時多数発言可能
見落とし防止
議論の深化
普及の障害 ・・・ 日常業務からの乖離
 共同セマンティックオーサリング


38
日常業務(個人用セマンティックオーサリング)とグ
ループウェアのシームレスな融合
上記のグループウェアのメリット
+ 高度な検索、要約、翻訳など
知識循環型社会
知識循環型社会
巨大なグループウェア
 データベースを作る人々 = 使う人々
 知の社会的共有と拡大再生産
セマンティックオーサリング
不特定多数
の利用者
 消費者
 事業者
 仲介者
40
知識の提供
共有データベース
知識の取得
高性能の検索・要約
生産と経営の高度化
 ホワイトカラーの生産性向上
 検索コスト極小、オンデマンド要約、etc.




協業支援
市場動向分析
営業日誌分析
ものづくりの高度化
 ソフトウェアの生産性向上
 設計情報の共有と再利用
 コンサルティング
 コンテンツの知的作成・配信
41
学習支援
 個別生涯学習
 eラーニング用の特別なコンテンツは不要
 オンデマンドで知識をわかりやすく提示
 国語能力・ディベート能力の向上
 小学校の作文、大学の教養科目
 セマンティックオーサリングによる論理的思
考能力の養成
42
研究における知識循環
 研究と発表と評価の融合
 知識のターンアラウンドを高速化
 研究者と生活者の間の知識循環
 「欠如モデル」からの脱却
 異分野間の知識移転
 バイオインフォマティクス、etc.
 内容分析、談話分析
43
知識循環に基づく介護
 介護の現状


2004年5.5兆円 → 2025年20兆円/へルパー不足
情報の蓄積・共有・再利用が不十分
 ケアミーティング


医者の多忙等によりほとんど開かれず
議論の構造化による遠隔会議
 ケアノート


手書きで再利用されないことが多い
情報弱者(へルパー、被介護者)もキーボードを使わ
ずにセマンティックオーサリング
 保険事務書類


固定フォーマットなので不十分・不正確
セマンティックオーサリングで良い情報を簡単に蓄積
 症例データベースの生成

44
発病前の履歴 → 適切な治療・予防
中小企業の経営支援
 多数の中小企業をひとつのバーチャル企業と
して創発的に組織化


各企業は営業やマーケティングの機能が貧弱
協同セマンティックオーサリング

企業のリスクはゼロ
 製造業者の技術シーズ&ニーズのDB

B2Bの営業とマーケティング
 小売・サービス事業者の生活情報DB

一般生活者のコミュニティとの融合

生活者からの知識提供・・・マーケティング
 営業支援


45
広告作成の支援
セマンティックアフィリエイトプログラム
生活情報コミュニティ支援
 生活関連情報を網羅
 → 需要と供給の相互作用・拡大再生産 → 産業創造
 全利用者による知識提供 → 雇用創出
地域生活支援センター
相談対応
…
検索、要約 …
知識取得
知識提供
知識提供
知識提供
情報弱者
オーサリング
知識循環型
データベース
生活、行政、産業
46
オントロジー
行政支援
 市民への情報開示
 住民便利帳の知的コンテンツ化
 検索、要約、翻訳、視覚化、提示
 市民からの情報提供
 行政アフィリエイト
 民意と知識の集約
 協同セマンティックオーサリング
 外国人の支援
 観光・行政サービス情報
 共通の知的コンテンツを翻訳
 外国語でのセマンティックオーサリング
47
電子知識政府




民意と知識の集約・分析
政策立案と社会的合意形成
住民参加型(電子)自治体
政治・社会的課題のグローバル化・複雑化
 代表制では多様な知識の集約が困難
 全有権者による有効な議論が可能なら
 代表制・間接民主制は不要
 組み立て民主主義・・・川喜田二郎
 情報技術による支援
 検索、要約、翻訳、etc.
 ウェブログでは不足
48
結論
まとめ
 セマンティックオーサリング


意味構造化 → 良質のコンテンツが楽に作れる
オントロジーの利用



あり ・・・ 特定分野のコンテンツ
なし ・・・ 一般的コンテンツ
知的コンテンツのキラーアプリケーション
 (特許などの)特定分野での意味構造化を普及さ
せるにはオントロジーの標準化と共有が重要
 セマンティックオーサリングの普及
→ 特許情報意味構造化の普及
50