言語間比較に基づくWikipediaの補完情報抽出手法の提

異言語Wikipediaを用いた
補完情報の提示手法の提案
☆ 藤原
裕也 (甲南大学)
鈴木 優 (名古屋大学)
小西 幸男 (甲南大学)
灘本 明代 (甲南大学)
背景
• Wikipedia
– 特徴
• 285以上の多言語版が存在
• 誰でも記事を編集することが可能
– 問題
• ある話題に対しての情報が不足している記事が多く存在
情報補完
• 他のWebから情報補完する
• 他の言語版から情報補完する
etc…
言語版によって書いてある内容が異なる
例:日本の文化
検索Query:たこ焼き
英語版
日本語版
目次
Contents
1 Takoyaki pan
2 See also
3 References
外国人ユーザ
理由
•編集者が少ない
•十分な知識を持っていない
補完
1 概要
2 材料
2.1 生地
2.2 具
2.3 味付け
3 食べ方
4 歴史
5 大阪のたこ焼き
6 器具
6.1 業務用
6.2 家庭用
7 日本国外におけるたこ焼き
7.1 朝鮮文化圏
7.2 中国文化圏
7.3 東南アジア
8 関連事項
目的
閲覧しているWikipediaに不足している情報を
他言語Wikipediaから補完する
日本語版
英語版
Contents
外国人ユーザ
1 Takoyaki pan
2 See also
3 References
理由
•編集者が少ない
•十分な知識を持っていない
補完
比較
目次
1 概要
2 材料
2.1 生地
補完情報を抽出
2.2 具
2.3 味付け
3 食べ方
4 歴史
5 大阪のたこ焼き
6 器具
補完情報を抽出
6.1 業務用
6.2 家庭用
7 日本国外におけるたこ焼き
7.1 朝鮮文化圏
7.2 中国文化圏
7.3 東南アジア
8 関連事項
全体の流れ
同じタイトルを
持つ他言語
の記事
閲覧記事
比較対象記事の決定
関連する
記事 1
比較
関連する
記事 2
関連する
記事 n
ユーザ
比較対象記事
補完
補完情報抽出
比較対象領域の決定
補完情報の提示
比較対象記事と比較対象領域の決定
• 言語や文化の違いから情報の粒度が異なる
→対応する記事が複数にまたがる場合がある
– 例:「剣道」
• 英語版:さんぽや狭山丘陵の説明が含まれている
• 日本語版:さんぽ,狭山丘陵の記事が各々存在する
Kendo
-------------Saya Hills
--------------------------sanpo
--------------
となりのトトロ
-------------さんぽ
--------------------------狭山丘陵
--------------
比較対象記事の決定
リンク構造解析
さんぽ
__________
__________
__________
__________
狭山丘陵
__________
__________
__________
__________
比較対象領域の決定
関連度
比較対象記事の分類
全体の流れ
同じタイトルを
持つ他言語
の記事
閲覧記事
比較対象記事の決定
関連する
記事 1
比較
関連する
記事 2
関連する
記事 n
ユーザ
比較対象記事
補完
補完情報抽出
比較対象領域の決定
補完情報の提示
補完情報の提示
追加情報
補完情報
新規情報
関係ない
補完情報
1 ***
****
2 ***
関係ある
補完
8 ***
追加
・
・
関係ない
****
補完
新規
閲覧記事
補完情報抽出手法により得られた補完情報を補完し,提示
補完情報の提示
補完情報の提示
補完情報と閲覧記事との関連性に基づき閲覧記事の
適した場所に補完情報へのリンクを張りユーザに提示
関連性
新規情報
追加情報
目次のタイトル
目次構造
類似性
追加情報の提示
目次のタイトル
①: 補完情報の目次のタイトルに注目
補完情報の目次のタイトルに注目し,タイトルの名詞を含む閲覧記事の目次に補完を行う
1. あらすじ
1. Plot
比較
2. Cast
3. Production
3. 製作の経緯
3.1. 初期のイメージボード
補完情報 ・ 名詞抽出
・
3.4. 製作体制
11. External links
My Neighbor Totoroの目次
(閲覧記事)
17. 外部リンク
となりのトトロの目次
(比較対象記事)
閲覧言語に翻訳
製作→Production
体制→System
追加情報の提示
目次構造
②: ①で補完できないかつ補完情報がサブセクションの場合
サブセクションは親セクションを詳細に記載していると考え,その親セクションに注目し,
親セクションのタイトルの名詞を含んでいる閲覧記事の目次に補完を行う
1. Plot
比較
2. Cast
3. Production
1. あらすじ
名詞抽出
親セクション
My Neighbor Totoroの目次
(閲覧記事)
製作→Production
経緯→ Circumstances
3. 製作の経緯
3.1. 初期のイメージボード
・
・
3.4. 製作体制
11. External links
閲覧言語に翻訳
17. 外部リンク
となりのトトロの目次
(比較対象記事)
補完情報
追加情報の提示
類似性
③: ①と②で補完できない場合
関連している情報はある程度類似していると考え類似度を計算
閾値δ以上の場合:その中で最も高い値の場所へ補完
1 あらすじ
1 Plot
比較
2 Cast
2 登場人物・物
・
・
補完情報
5 作品のモチーフ
3 Production
補完
類似度(高)
・
・
My Neighbor Totoro(閲覧記事)
・
・
となりのトトロ(比較対象記事)
追加情報の提示
類似性
③: ①と②で補完できない場合
関連している情報はある程度類似していると考え類似度を計算
閾値δ以上の場合:その中で最も高い値の場所へ補完
1 あらすじ
1 Plot
比較
2 Cast
・
・
4 Release
3 製作の経緯
補完
・
・
補完情報
3.5 公開後
類似度(高)
・
・
My Neighbor Totoro(閲覧記事)
・
・
となりのトトロ(比較対象記事)
補完情報の提示
補完情報の提示
補完情報と閲覧記事との関連性に基づき閲覧記事の
適した場所に補完情報へのリンクを張りユーザに提示
関連性
新規情報
追加情報
目次のタイトル
目次構造
類似性
追加情報の提示
類似性
③: ①と②で補完できない場合
関連している情報はある程度類似していると考え類似度を計算
閾値δ未満の場合:新しい情報として関連項目の手前に補完
1 あらすじ
1 Plot
閾値δ未満
比較
2 Cast
・
・
7 音楽
閾値δ未満
・
・
補完情報
7.1 オープニングテーマ
9 See also
閾値δ未満
・
My Neighbor Totoro(閲覧記事)
・
・
となりのトトロ(比較対象記事)
追加情報の提示
類似性
③: ①と②で補完できない場合
関連している情報はある程度類似していると考え類似度を計算
閾値δ未満の場合:新しい情報として関連項目の手前に補完
1 あらすじ
1 Plot
閾値δ未満
比較
2 Cast
・
・
7 音楽
閾値δ未満
・
・
補完情報
7.1 オープニングテーマ
9 See also
閾値δ未満
・
My Neighbor Totoro(閲覧記事)
・
・
となりのトトロ(比較対象記事)
プロトタイプシステム
プロトタイプシステム
プロトタイプシステム
補完情報提示の実験
• 補完情報提示手法の有用性を示す実験を
行った
– 実験内容
• 補完情報抽出手法により抽出できた補完情報を用いて
最適な閾値δと補完情報提示の適合率を測った
• 比較言語版
– 閲覧言語:英語版
– 比較対象言語:日本語版
• 実験条件
– 閾値δ:0~0.2の範囲を0.05刻み
– 使用データ:12個のクエリ
補完情報提示の実験
結果
補完情報提示の適合率
0.7
0.65
平
均
適 0.6
合
率
適合率
0.55
0.5
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.2
閾値δ
閾値0.07の時に最も高い適合率を得ることができた.
よって本研究では閾値δを0.07とし補完情報の補完を行う.
補完情報提示の実験
結果
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
(1)
(2)
(3)
(4)
(5)
(6)
(7)
クエリ
(1) My Neighbor Totoro(となりのトトロ)
(2) Ninja(忍者)
(3) Urashima Taro(浦島太郎)
(4) Yukata(浴衣)
(5) Doraemon(ドラえもん)
(6) Hello Kitty(ハローキティ)
(7) Iaido(居合道)
(8) Kendo(剣道)
(9) Kyudo(弓道)
(10) Manzai(漫才)
(11) Tempura(天ぷら)
(12) Onigiri(おにぎり)
平均
-
#
適合率
(8)
(9) (10) (11) (12)
結果の良い例
• Kendo(剣道)が挙げられる.Kendoの補完情報として「年表」がKendoの
歴史について説明してある「History」に補完することができた
• さらにKendoに記載されていない大会に関する情報が新しい情報とし
て補完することができた
適合率
0.53
0.67
0.71
0.5
0.65
0.65
0.71
0.83
0.75
0.67
0.61
0.5
0.65
補完情報提示の実験
結果
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
(1)
(2)
(3)
(4)
(5)
(6)
(7)
クエリ
(1) My Neighbor Totoro(となりのトトロ)
(2) Ninja(忍者)
(3) Urashima Taro(浦島太郎)
(4) Yukata(浴衣)
(5) Doraemon(ドラえもん)
(6) Hello Kitty(ハローキティ)
(7) Iaido(居合道)
(8) Kendo(剣道)
(9) Kyudo(弓道)
(10) Manzai(漫才)
(11) Tempura(天ぷら)
(12) Onigiri(おにぎり)
平均
-
#
適合率
(8)
(9) (10) (11) (12)
結果の悪い例
• 結果の悪かったものとしてある補完情報が本来複数の場所に補完さ
れるべきである場合が存在した
• 関連する記事として抽出した比較対象記事の補完情報に対しては正し
く補完されない場合が存在した
適合率
0.53
0.67
0.71
0.5
0.65
0.65
0.71
0.83
0.75
0.67
0.61
0.5
0.65
まとめと今後の課題
• まとめ
– Wikipediaの多言語性に着目し,内容の充実していな
い記事に対し他言語のWikipediaを用いて,情報の補
完を行う手法を提案した
– 提案手法
•
•
•
•
比較対象記事の決定
比較対象領域の決定
領域ごとの補完情報抽出手法
補完情報の提示手法
• 今後の課題
– 他言語との比較
– 補完情報の分類
全体の流れ
同じタイトルを
持つ他言語
の記事
閲覧記事
比較対象記事の決定
関連する
記事 1
比較
関連する
記事 2
関連する
記事 n
ユーザ
比較対象記事
補完
補完情報抽出
比較対象領域の決定
補完情報の提示
追加情報の提示
目次のタイトル
①: 補完情報の目次のタイトルに注目
補完情報の目次のタイトルに注目し,タイトルの名詞を含む閲覧記事の目次に補完を行う
1 歴史
1 History
2 Practitioners
比較
閲覧言語に翻訳
1.1 江戸時代
名詞抽出
・
・
・
・
4 服装・用具
4 Equipment and clothing
補完
・
・
Kendo(閲覧記事)
・
・
剣道(比較対象記事)
服装→equipment
用具→clothing
補完情報
追加情報の提示
目次構造
②: ①で補完できないかつ補完情報がサブセクションの場合
サブセクションは親セクションを詳細に記載していると考え,その親セクションに注目
し,親セクションのタイトルの名詞を含んでいる閲覧記事の目次に補完を行う
親セクション 名詞抽出
1 History
比較
2 Practitioners
・
・
4 Equipment and clothing
1 歴史
閲覧言語に翻訳
歴史→History
1.1 江戸時代
・
・
1.5 年表
・
・
・
・
Kendo(閲覧記事)
剣道(比較対象記事)
補完情報
英語の翻訳
GENE95辞書
Microsoft api
Wikipedia
Google Ajax api
他言語へのリンク
単語の多義性を考慮していない
全体の流れ
同じタイトルを
持つ他言語
の記事
閲覧記事
①
比較対象記事の決定
関連する
記事 1
関連する
記事 2
比較
関連する
記事 n
ユーザ
補完
③
補完情報抽出
④
補完情報提示手法
比較対象記事群
②
比較対象領域の決定
①比較対象記事の決定
剣道家一覧
リンク構造解析
双
関連している記事同士は
リンク関係にある
0.23
リンクグラフの生成
双
0.05
関連度が
低い
比較
Kendo
剣道
双
平成
0.3
二刀流
強連結:関連性が強い
片
関連度計算
閾値以下を取り除く
比較対象ページの取得
企業
双方向リンクでない
補完情報抽出
①比較対象記事の決定
Batting
• 過去の手法
– リンクグラフのノード間をCos類似度で計算
• 適合率:35%,再現率:49%,F値:41
⇒精度が低かった
関連度
Cricket
双方向リンク注目した
記事と記事との関連する度合い
アンカー文字列の出現位置
サマリにリンクを張っている記事は
関連性が高い
アンカー文字列の出現回数
記事に何度も出現する
アンカー文字列は関連性が高い
コンテンツの類似性
関連する記事はある程度内容が
似ている
①比較対象記事の決定
関連度
一番初めの説明部
分
サマリ
セグメント
セグメント
記事をサマリとセグメントに分割
セグメント
①比較対象Wikipediaの記事の決定
関連度
アンカー文字列の出現位置
クエリがタイトルのページ
(例:Cricket)
アンカー文字列
サマリ エリア
タイトル:
サマリ
セグメント A
セクション 1
セグメント B
セクション 2
セグメント n
セクション n
アンカー文字列
基準記事
比較対象記事のアンカー文字列が基準記事のサマリ,
どのセグメントに出現するかを求める
双方向リンク
の記事
(例:Batting)
①比較対象記事の決定
関連度
アンカー文字列の出現回数
クエリがタイトルのページ
(例:Cricket)
出現回数計算
サマリ エリア
タイトル:
サマリ
セグメント A
セクション 1
セグメント B
セクション 2
セグメント n
セクション n
出現回数計算
双方向リンク
の記事
(例:Batting)
基準記事
比較対象記事のアンカー文字列が出現するサマリ,セグメントに対し
比較対象記事のアンカー文字列の出現回数を求める
①比較対象記事の決定
関連度
コンテンツの類似性
クエリがタイトルのページ
(例:Cricket)
サマリ エリア
タイトル:
サマリ
セグメント A
セクション 1
セグメント B
セクション 2
セグメント n
セクション n
比較
双方向リンク
の記事
比較
(例:Batting)
基準記事
比較対象記事のアンカー文字列が出現するサマリ,セグメントに対し
比較対象記事との類似度を計算
①比較対象記事の決定
関連度
クエリがタイトルのページ
(例:Cricket)
アンカー文字列
タイトル:
サマリ エリア
比較
サマリ
セグメント A
セクション 1
セグメント B
セクション 2
セグメント n
セクション n
アンカー文字列
基準記事
n
Ri  {・ (TFsum・i S sumi )   (TFik・ Sik )}/ max(Rim )
k 1
比較
双方向リンク
の記事
(例:Batting)
i:比較対象ノード
TFsumiのサマリのアンカー文字列の出現回数
Ssumiのサマリと比較対象記事との類似度
TFikのあるセグメントのアンカー文字列の出現回数
Sikのあるセグメントと比較対象記事との類似度
n:あるlのリンクを張っているセグメントの数
max(Rim):比較対象記事群のRiの最大値
②コンテンツの比較
・Wikipediaの記事は構造に基づいて段落に分かれている
→意味的に分かれている可能性が高い
・各々の段落におけるコンテンツ同士の類似度を求める
・全てのコンテンツに対しある閾値以下である段落を補完情報として抽出
比較
セグメント 1
セグメント 1
セグメント 2
セグメント 2
セグメント n
セグメント n
閲覧記事
比較対象記事
②コンテンツの比較
例:フィッシュ・アンド・チップス
記事をセグメントという単位に分ける
セグメント
セグメント
セグメント
セグメント
セグメント
閲覧記事
比較対象記事
②コンテンツの比較
例:フィッシュ・アンド・チップス
・各々の段落におけるコンテンツ同士の類似度を求める
・全てのコンテンツに対しある閾値以下である段落を補完情報として抽出
名詞の出現頻度を抽出
名詞の出現頻度を抽出
セグメント
名詞の出現頻度を抽出
セグメント
閲覧記事の全ての
セグメント
補完情報
セグメントに対し
類似度が閾値以下
名詞の出現頻度を抽出
名詞の出現頻度を抽出
セグメント
閲覧記事
セグメント
比較対象記事
Cos( x, y ) 
x y
i
j
x  y
2
2
i
j
xi:日本語版記事の名詞の出現頻度
yi:英語版記事の名詞の出現頻度
②比較対象領域の決定
• 以前,関連度を用いて抽出した比較対象記
事に対し補完情報の抽出を行った
→ 閲覧記事に関係ない情報が抽出される場合が
存在した
– 例:剣道と二刀流の場合
• 剣道の情報は一部分のみ
• 西洋剣術の二刀流など
関係のない
情報
比較対象領域を決定する必要がある
②比較対象領域の決定
得られた比較対象記事に対し記事の分類を行う
• 比較基準記事
閲覧記事と同じタイトルを持つ他言語の記事
例:「Kendo」に対する「剣道」
• 包含関係記事
比較基準記事と包含関係にある記事
例:「剣道」と「剣道家一覧」の関係
剣道
Kendo
剣道
剣道家
一覧
• 部分一致記事
記事の一部分が比較基準記事と関係する記事
例:「剣道」と「二刀流」の関係
剣道
二刀流
②比較対象領域の決定
得られた比較対象記事に対し記事の分類を行う
• 比較基準記事
閲覧記事と同じタイトルを持つ他言語の記事
例:「Kendo」に対する「剣道」
• 包含関係記事
比較基準記事と包含関係にある記事
例:「剣道」と「剣道家一覧の関係
剣道
Kendo
剣道
剣道家
一覧
• 部分一致記事
記事の一部分が比較基準記事と関係する記事
例:「剣道」と「二刀流」の関係
剣道
二刀流
比較基準記事
• 閲覧記事と同じタイトルを持つ他言語の記事
– 例:「Kendo」に対する「剣道」
分類方法
閲覧記事に存在する言語間リンクを用いて分類
他言語へのリンク
剣道
英語版:Kendo
Kendo
②比較対象領域の決定
得られた比較対象記事に対し記事の分類を行う
• 比較基準記事
閲覧記事と同じタイトルを持つ他言語の記事
例:「Kendo」に対する「剣道」
• 包含関係記事
比較基準記事と包含関係にある記事
例:「剣道」と「剣道家一覧」の関係
剣道
Kendo
剣道
剣道家
一覧
• 部分一致記事
記事の一部分が比較基準記事と関係する記事
例:「剣道」と「二刀流」の関係
剣道
二刀流
包含関係記事
• 比較基準記事と包含関係になっている記事
->比較基準記事とis-a関係になっている記事
• 例:「剣道」と「剣道家一覧」の関係
分類方法
中山らの提案するLSP法を用いて分類
剣道
剣道家
一覧
記事の冒頭文を重要文とし,その文に比較基準記事のアンカー文字列が
存在する場合に包含関係記事として分類
比較基準記事への
アンカー文字列
例:剣道家一覧
剣道家一覧は、剣道で活躍した人の一覧
参考文献:Nakayama,K.: “Wikipedia Mining for Triple Extraction Enhanced by Co-reference Resolution“
Proceedings of the 1St International Workshop on Social Data on the Web (SDoW’08)
②比較対象領域の決定
得られた比較対象記事に対し記事の分類を行う
• 比較基準記事
閲覧記事と同じタイトルを持つ他言語の記事
例:「Kendo」に対する「剣道」
• 包含関係記事
比較基準記事と包含関係にある記事
例:「剣道」と「剣道家一覧」の関係
剣道
Kendo
剣道
剣道家
一覧
• 部分一致記事
記事の一部分が比較基準記事と関係する記事
例:「剣道」と「二刀流」の関係
剣道
二刀流
部分一致記事
• 記事の一部分が比較基準記事と関係する記事
– 例:「剣道」と「二刀流」との関係
分類方法
比較対象記事から比較基準記事と包含関係記事を
除いたすべての記事
比較対象記事
部分一致
記事
包含関係
記事
比較基準
記事
包含関係
記事
剣道
二刀流
②比較対象領域の決定
• 分類
– 比較基準記事
– 包含関係記事
– 部分一致記事
• 比較領域の決定
– 比較基準記事・包含関係記事
• 記事全体を比較
– 部分一致記事
• セクションのタイトルに比較基準記事のアンカー文字列を含む場合
• サブセクションのタイトルに比較基準記事のアンカー文字列を含む
場合
• 記事本文中に比較基準記事のアンカー文字列を含む場合
②比較対象領域の決定
• 分類ごとに補完情報を抽出するために,閲覧記事
と比較対象となる領域を決定し補完情報を抽出
比較基準記事・包含関係記事
閲覧記事との関係が強いと考え記事全体を比較対象とする
セグメント
セグメント
セグメント
閲覧記事(Kendo)
比較
セグメント
補完情報
セグメント
閲覧記事のすべてのセグメント
に対し類似度がある閾値以下
比較基準記事(剣道)
②比較対象領域の決定
部分一致記事
セクションのタイトルに比較基準記事
のタイトルを含む場合
サブセクションのタイトルに比較基準記事
のタイトルを含む場合
比較
比較
セグメント 1
セグメント 2
セグメント 1
タイトル
セクション
セグメント 2
サブセクション
セグメント n
閲覧記事
サブセクション
セグメント n
部分一致記事
閲覧記事
記事本文中に比較基準記事のタイトルを含む場合
セグメント 1
比較
セクション
セグメント 2
セグメント n
閲覧記事
セクション
部分一致記事
セクション
タイトル
サブセクション
サブセクション
部分一致記事
②比較対象領域の決定
セクションのタイトルに比較基準記事のタイトルを含む場合
サブセクションを含めそのセクション全体を比較対象とする
比較基準記事のタイトル
セグメント 1
比較
1 剣道における…
比較領域
セグメント 2
1.1 歴史
セグメント n
1.2 試合…
Kendo(閲覧記事)
2 西洋剣術…
鍔迫り合い(部分一致記事)
②比較対象領域の決定
部分一致記事
セクションのタイトルに比較基準記事
のタイトルを含む場合
サブセクションのタイトルに比較基準記事
のタイトルを含む場合
比較
比較
セグメント 1
セグメント 2
セグメント 1
タイトル
セクション
セグメント 2
サブセクション
セグメント n
閲覧記事
サブセクション
セグメント n
部分一致記事
閲覧記事
記事本文中に比較基準記事のタイトルを含む場合
セグメント 1
比較
セクション
セグメント 2
セグメント n
閲覧記事
セクション
部分一致記事
セクション
タイトル
サブセクション
サブセクション
部分一致記事
②比較対象領域の決定
サブセクションのタイトルに比較基準記事のタイトルを含む場合
親セクションとそのサブセクションを比較対象とする
セグメント 1
比較
1 日本
セグメント 2
1.1 剣術
セグメント n
1.2 剣道
Kendo(閲覧記事)
比較領域
兄弟セクションは比較基準記事と関係が弱いと
考え,比較対象領域としない
親セクション
比較基準記事のタイトル
1.3 スポーツ…
二刀流(部分一致記事)
②比較対象領域の決定
部分一致記事
セクションのタイトルに比較基準記事
のタイトルを含む場合
サブセクションのタイトルに比較基準記事
のタイトルを含む場合
比較
比較
セグメント 1
セグメント 2
セグメント 1
タイトル
セクション
セグメント 2
サブセクション
セグメント n
閲覧記事
サブセクション
セグメント n
部分一致記事
閲覧記事
記事本文中に比較基準記事のタイトルを含む場合
セグメント 1
比較
セクション
セグメント 2
セグメント n
閲覧記事
セクション
部分一致記事
セクション
タイトル
サブセクション
サブセクション
部分一致記事
②比較対象領域の決定
記事本文中に比較基準記事のタイトルを含む場合
比較基準記事のタイトルが含まれている段落のみを比較対象とする
セグメント 1
比較
比較基準記事のタイトル
セグメント 2
セグメント n
Kendo(閲覧記事)
道場(部分一致記事)
比較領域
補完情報抽出の実験
• 補完情報抽出手法の有用性を示す実験を行った
– 実験内容
•
•
•
•
提案手法とBaselineの比較
Baseline:比較対象領域の決定を行わない場合
適合率,再現率,F値の比較
比較言語版
– 閲覧言語:英語版
– 比較対象言語:日本語版
• 設定(前実験より)
– 関連度の式のα:3.0
– 関連度の閾値β:0.2
– 補完情報抽出の閾値γ:0.2
n
Ri  {・ (TFsum・i S sumi )   (TFik・ Sik )}/ max(Rim )
k 1
実験条件
適合率 =
抽出した補完情報 ∩ 正解データ
抽出した補完情報
再現率 =
抽出した補完情報 ∩ 正解データ
正解データ
正解データ:閲覧記事に対し補完情報となる比較対象記事のセクションまたは段落
結果
適合率
再現率
1.00
1.00
0.80
0.80
0.60
0.60
0.40
0.40
0.20
0.20
0.00
0.00
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(1)
(2)
クエリ
1.00
0.80
0.60
0.40
0.20
0.00
(2)
(3)
(4)
(5)
(6)
クエリ
(4)
(5)
(6)
(7)
(8)
(9)
(10)
クエリ
F値
(1)
(3)
(7)
(8)
(9)
(10)
Number
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
クエリ
My Neighbor Totoro(となりのトトロ)
Doraemon(ドラえもん)
Iaido(居合道)
Manzai(漫才)
Yukata(浴衣)
Urashima Taro(浦島太郎)
Pikachu(ピカチュウ)
Kinkaku-ji(鹿苑寺)
Hello_Kitty(ハローキティ)
Kyudo(弓道)
平均(適合率:0.60->0.86,再現率:0.68->0.62,F値:0.62->0.71)
結果の良い例
• 居合道
– Baseline
• 部分一致記事である武道の称号の範士が抽出,しかし柔道や弓
道の範士のように居合道に関係のない情報が抽出された
– 提案手法
• 範士,その中でも居合道の情報のみが抽出できた
• となりのトトロ
– Baseline
• 部分一致記事である狭山丘陵,地理情報などとなりのトトロと関
係のない情報が抽出された
– 提案手法
• 狭山丘陵,となりのトトロの舞台となったという情報が抽出できた
結果の悪い例
• 部分一致記事において補完情報と成り得な
い情報が抽出される場合が存在した
– 例:ドラえもん
• 部分一致記事として作者の藤子・F・不二雄が抽出
• 藤子・F・不二雄の記事では多くのセクションでドラえも
んのアンカー文字列が出現
• ドラえもん以外に多くの漫画を描いており,ドラえもん
の補完情報とならない情報が抽出された
• 比較対象となる領域が正しく決定できない場
合が存在
比較対象記事の
決定
実験1:比較対象記事の決定
補完情報抽出
• 比較対象記事決定の閾値の設定とその精度を測った
– 実験内容
•
•
•
•
関連度とBaseline
Baseline:Cos類似度
再現率,適合率,F値を比較
比較言語版
Batting
0.23
Cricket
– 閲覧言語:日本語版
– 比較対象言語:英語版
0.3
Laws of
cricket
• 条件
– α=1〜10を1刻み
– 閾値0〜1を0.05刻み
n
Ri  {・ (TFsum・i S sumi )   (TFik・ Sik )}/ max(Rim )
k 1
Hockey
双方向リンクでない
実験1:比較対象記事の決定
クエリ
2
Warwick Castle
2
Black dog (ghost)
7
Fish and chips
4
Goodwood Festival of Speed
2
Bowls
2
Burleque
3
Flag of Scotland
6
Gaelic handball
4
Kipper
3
Lipton
補完情報抽出
正解データ数
Bannock(food)
Natinal Gallery of Scotland
比較対象記事の
決定
12
1
正解データ:比較対象記事に成り得る記事
適合率 
抽出した比較対象記事  正解データ
抽出した比較対象記事
再現率 
抽出した比較対象記事  正解データ
正解データ
比較対象記事の
決定
実験1:比較対象記事の決定
補完情報抽出
実験1:各閾値とαにおけるF値の平均
F値
0.6
0.55
α=1
0.5
α=2
α=3
0.45
α=4
α=5
0.4
α=6
0.35
α=7
α=8
0.3
α=9
α=10
0.25
0.2
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
グラフよりα=3で閾値が0.2の時に最も高いF値を得ることができた
よってα=3、閾値を0.2と設定する
1
閾値
比較対象記事の
決定
実験1:比較対象記事の決定
補完情報抽出
再現率
適合率
1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0
0
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(1)
(2)
(3)
(4)
F値
1
0.8
0.6
0.4
0.2
0
(2)
(3)
(4)
(5)
(6)
(7)
クエリ
(6)
(7)
(8)
(9)
(10)
(11)
(12)
クエリ
クエリ
(1)
(5)
(8)
(9)
(10)
(11)
(12)
Number
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
クエリ
Bannock (food)
Warwick Castle
Black dog (ghost)
Fish and chips
Goodwood Festival of Speed
Bowls
Burlesque
Flag of Scotland
Gaelic handball
Kipper
National Gallery of Scotland
Lipton
正解データ
2
2
7
4
2
2
3
6
4
3
12
1
平均(適合率:0.37->0.59,再現率:0.45->0.64,F値:0.36->0.52)
実験1:比較対象記事の決定
比較対象記事の
決定
補完情報抽出
• 結果の良い例(Gaelic handball)
– Baseline
• 関連する記事であるGAA Handballという
Gaelic handballの理事会の記事が抽出できなかった
• Gaelic handballとGaelic handballの理事会の場合は理
事会はGaelic handballの競技の説明をしているわけで
はない.値が低くなり抽出できなかった
_________
_________
_________
_________
Gaelic handball
比較
_________
_________
_________
_________
GAA handball
実験1:比較対象記事の決定
比較対象記事の
決定
補完情報抽出
• 結果の良い例(Gaelic handball)
– 提案手法
• 関連する記事であるGAA Handballが抽出
• Gaelic handballの記事の中にあるGaelic handballの理
事会を説明している部分とGaelic handballの理事会の
記事を比較.関連度が高くなり抽出できた
GAA Handball
の説明
比較
Gaelic handball
_________
_________
_________
_________
GAA handball
実験1:比較対象記事の決定
比較対象記事の
決定
補完情報抽出
• 比較対象記事であるにも関わらず比較対象
記事として抽出されない記事が存在した
– 例:Bowls
• 比較対象記事であるWorld Bowls Eventsが抽出できな
かった
• アンカー文字列がSee also(関連項目)に出現
コンテンツ量が豊富ではない
World Bowls Eventsについて情報がほとんどない
World Bowls Eventsのアンカー文字列が一回しか出現しない
関連度であるとBowlsのSee alsoの部分と
World Bowls Eventsの記事の内容全てとの比較し計算する
See also(関連項目)
関連度が低くなり抽出できなかった
評価実験2:補完情報抽出
比較対象記事の
決定
補完情報抽出
• 得られた比較対象記事と閲覧記事を用いて補
完情報抽出を行い最適な閾値を求めた
– 内容
• コンテンツの比較の際の閾値
• 条件
– 閾値0〜1を0.05刻み
– 補完情報の適合率、再現率、F値
• 比較言語
– 閲覧言語:日本語版
– 比較対象言語:英語版
• 実験対象記事:評価実験1と同じ
比較
セグメント 1
セグメント 1
セグメント 2
セグメント 2
セグメント n
セグメント n
閲覧記事
比較対象記事
評価実験2:補完情報抽出
比較対象記事の
決定
補完情報抽出
図より閾値が0.2の時に適合率,再現率が交わり共に高い値となった
これにより,本研究では閾値を0.2と設定し補完情報の抽出を行う
評価実験3:提案手法の精度
比較対象記事の
決定
補完情報抽出
• 提案手法の有用性を示すための評価実験を行っ
た
– 内容
• 提案手法で得られた補完情報の適合率、再現率、F値
• 比較言語
– 閲覧言語:日本語版
– 比較対象言語:英語版
• 実験対象記事:評価実験1と同じ
• 設定
– 関連度の式のα:3.0(評価実験1より)
– 関連度の閾値β:0.2(評価実験1より)
– コンテンツの比較の閾値γ:0.2(評価実験2より)
評価実験3:提案手法の精度
クエリ
補完情報抽出
正解データ数
Bannock(food)
2
Warwick Castle
12
Black dog (ghost)
32
Fish and chips
11
Goodwood Festival of Speed
10
Bowls
比較対象記事の
決定
正解データ:補完情報となるセグメント
適合率 
抽出した補完情報  正解データ
抽出した補完情報
再現率 
抽出した補完情報  正解データ
正解データ
9
Burleque
22
Flag of Scotland
56
Gaelic handball
16
Kipper
16
Natinal Gallery of Scotland
4
Lipton
8
評価実験3:提案手法の精度
クエリ
Bannock (food)
Warwick Castle
Black dog (ghost)
Fish and chips
Goodwood Festival of Speed
Bowls
Burlesque
Flag of Scotland
Gaelic handball
Kipper
National Gallery of Scotland
Lipton
平均
適合率
0.33
0.79
0.89
0.45
0.6
0.5
0.71
0.98
0.68
0.88
0.57
0.71
0.67
提案手法
再現率
0.5
0.92
0.78
0.82
0.6
1
0.45
0.88
0.94
0.94
1
0.63
0.79
比較対象記事の
決定
補完情報抽出
F値
0.4
0.85
0.83
0.58
0.6
0.67
0.56
0.92
0.79
0.91
0.72
0.67
0.71
適合率の平均:0.67,再現率の平均:0.79,F値の平均:0.71
高い結果を得ることができ提案手法の有用性を示すことができた
評価実験3:提案手法の精度
比較対象記事の
決定
補完情報抽出
• 結果の良い例
– Lipton
• 日本語版にはティーパックの説明しかない
• 英語版にはトーマスリプトンがイエローラベルを考えた
など情報が存在,そのイエローラベルの情報が補完情
報として抽出された
– Fish and Chips
• 比較対象記事としてマッシピーの記事が抽出
• 地域によるマッシピーの種類について情報が抽出
評価実験3:提案手法の精度
比較対象記事の
決定
補完情報抽出
• 閲覧記事と関係のない情報が補完情報として
抽出される場合が存在した
– 例:Black dog (ghost)
• 関連する記事としてHanging Hillsというアメリカに存在す
る丘の記事が抽出された
• この丘はブラック・ドッグが伝承されている
• Hanging Hillsの記事にはブラック・ドッグの情報は一部分
• この丘の地理情報や地質などはブラック・ドッグの補完
情報に成り得ない
今後は関係のない情報の削除を考える必要がある
実験1
• 実際にLSP法により包含関係記事が抽出でき
るか実験を行った
– 条件
• 判定
– 比較基準記事と包含関係で
あるかどうか
– 適合率,再現率,F値
• 対象
– 比較基準記事に双方向リンク
されている全ての記事
クエリ
双方向リンクの
記事数
包含関係
記事の数
24
8
マナー
4
3
居合道
7
4
忍者
29
15
正岡子規
23
7
下駄
10
2
扇子
6
3
寿司
39
16
花札
9
5
剣道
58
32
漫才
実験1
クエリ
包含関係記事の例
漫才
浪曲漫才
マナー
レディーファースト
寿司
稲荷寿司
ツッコミ
日本の食事作法
ちらし寿司
結果
・適合率:0.73,再現率:0.86,F値:0.77
考察
・リード部分に比較基準記事のアンカー文字列が存在しないにも関わらず
包含関係になっている記事が存在.
例:->寿司と大村寿司
・リード部分に比較基準記事のアンカー文字列が存在するにも関わらず
包含関係ではない記事が存在
例:->正岡子規と夏目漱石
実験2
• 部分一致記事が抽出の精度とその比較領域の精
度を測った
– 条件
• 判定
– 比較基準記事と部分一致記事で
あるかどうか
– 適合率,再現率,F値
• 対象
– 比較基準記事に双方向リンク
されている全ての記事
結果
・適合率:0.99,再現率:0.96,F値:0.97
クエリ
双方向リンクの
記事数
部分一致
記事の数
となりのトトロ
28
1
ドラえもん
34
2
7
2
漫才
29
2
浴衣
6
4
浦島太郎
10
5
ピカチュウ
12
3
鹿苑寺
18
4
ハローキティ
30
8
弓道
24
4
居合道
実験3
• 部分一致記事の比較領域の精度の測った
– 条件
• 判定
– 比較領域が閲覧記事と関係があるか
– 適合率,再現率,F値
• 対象
– 比較基準記事に双方向リンクされている全ての記事
• データセット
– 実験2と同じ
実験3
• 結果
– 適合率:0.73,再現率:0.81,F値:0.74
• 考察
– アンカー文字列が存在する段落にも関わらず比較領
域にならないものが存在(例:ドラえもん)
• 比較対象記事として作者の藤子・F・不二雄が抽出.彼は他
にも多くの漫画を描いており,ドラえもんと関係のない情報
も抽出された
– セクション全体が比較領域になるはずが段落のみに
なる場合が存在(例:浦島太郎)
• 本来,丹後国風土記のセクションである浦島伝説が比較領
域であるがアンカー文字列を含んでない
• 浦島太郎の類義語が浦島伝説
考察
• 比較対象となる領域が正しく決定できない場
合が存在
– 例:浦島太郎
• 部分一致記事として荘内半島が抽出
比較対象
浦島伝説は浦島太郎の同義語
荘内半島
補完情報提示の実験
• 補完情報提示手法の有用性を示す実験を
行った
– 実験内容
• 補完情報抽出手法により抽出できた補完情報を用いて
最適な閾値δと補完情報提示の適合率を測った
• 比較言語版
– 閲覧言語:英語版
– 比較対象言語:日本語版
• 実験条件
– 閾値δ:0~0.2の範囲を0.05刻み
補完情報の提示
パターン1
補完情報と閲覧記事との関連性に基づき閲覧記事の適した場所に補完情報へ
のリンクを張りユーザに提示
1.
2.
3.
4.
補完情報の目次のタイトルから名詞を抽出
名詞を閲覧言語に翻訳
翻訳した名詞と閲覧記事の目次全てとマッチング
翻訳した名詞を含んでいる閲覧記事の目次に補完情報へのリンク挿入
1 歴史
1 History
1.1 江戸時代
2 Practitioners
・
・
4 Equipment and clothing
・
・
Kendo(閲覧記事)
閲覧言語に翻訳
名詞抽出
補完
・
・
4 服装・用具
・
・
剣道(比較対象記事)
服装→equipment
用具→clothing
補完情報
補完情報の提示
パターン1で補完できないかつ補完情報がサブセクションの場合
サブセクションは親セクションを詳細に記載していると考え,その親セクションに注目
1.
2.
3.
4.
そのサブセクションの親セクションの目次のタイトルから名詞を抽出
その名詞を閲覧言語に翻訳
翻訳した名詞と閲覧記事の目次全てとマッチング
翻訳した名詞を含んでいる閲覧記事の目次に補完情報を挿入
閲覧言語に翻訳
名詞抽出
補完
歴史→History
1 History
1 歴史
2 Practitioners
・
・
4 Equipment and clothing
1.1 江戸時代
・
・
1.5 年表
・
・
・
・
Kendo(閲覧記事)
剣道(比較対象記事)
補完情報
補完情報の提示
パターン1とパターン2で補完できない場合
関連している情報はある程度類似していると考え類似度が最も高い場所に補完
1. 閲覧記事をセグメントに分割
2. 閲覧記事の各セグメントと補完情報との類似度を計算
3. 類似度がある閾値δ以上の場合はその中で最も高い値の場所へ補完
類似度がある閾値δ未満の場合は新しい情報として関連項目の手前に補完
閾値δ以上の場合
1 歴史
1 History
類似度計算
2 Practitioners
・
・
7 Rules of Competition
補完
2 組織統括
・
・
6.6 審判員
類似度(高)
・
・
・
・
Kendo(閲覧記事)
剣道(比較対象記事)
補完情報
補完情報の提示
パターン1とパターン2で補完できない場合
関連している情報はある程度類似していると考え類似度が最も高い場所に補完
1. 閲覧記事をセグメントに分割
2. 閲覧記事の各セグメントと補完情報との類似度を計算
3. 類似度がある閾値δ以上の場合はその中で最も高い値の場所へ補完
類似度がある閾値δ未満の場合は新しい情報として関連項目の手前に補完
閾値δ未満の場合
1 歴史
1 History
2 Practitioners
・
・
類似度計算
2 組織統括
・
・
6.6 審判員
13 See also
・
・
・
・
Kendo(閲覧記事)
剣道(比較対象記事)
補完情報
研究成果(1)
国際会議(査読あり):4本
•
Yuya Fujiwara, Yu Suzuki, Yukio Konishi, Akiyo Nadamoto, “Extracting
Difference Information from Multilingual Wikipedia”, The 14th Asia-Pacific
International Conference on Web Technologies and Applications (APWeb’12),
April 11-13, 2012,Kunming, China
•
Yuya Fujiwara, Yu Suzuki, Yukio Konishi, Akiyo Nadamoto,”Extracting Lack of
Information on Wikipedia by Comparing Multilingual Articles”, The 14th
International Conference on Information Integration and Web-based
Applications & Services(iiWAS’12), December 3-5, 2012, Bali, Indonesia.
•
Yu Suzuki, Yuya Fujiwara, Yukio Konishi, Akiyo Nadamoto,”Good Quality
Complementary Information for Multilingual Wikipedia”, The 13th
International Conference on Web Information System Engineering (WISE’12),
November 28-30, 2012, Paphos, Cyprus.
•
Yuya Fujiwara, Yu Suzuki, Yukio Konishi, Akiyo Nadamoto,” Complementary
Information for Wikipedia by Comparing Multilingual Articles”, The 15th AsiaPacific International Conference on Web Technologies and Applications
(APWeb’13), April 4-6, 2013, Sydney, Australia. (to appear)
研究成果(2)
Journal:1本
• Akiyo Nadamoto, Yuya Fujiwara, Yukio Konishi, Yu Suzuki, ”Extracting
Complementary Information of Wikipedia from Different Language
Articles”, International Journal of Business Intelligence and Data Mining
(IJBIDM) (to submitted)
研究成果(3)
国内会議(査読あり):4本
•
藤原 裕也,鈴木 優,小西 幸男,灘本 明代,”情報の質を考慮した多言語
Wikipedia記事の差異情報抽出手法の提案”,第4回データ工学と情報マネジ
メントに関するフォーラム,(DEIM2012),2012年3月
•
藤原 裕也,鈴木 優,小西 幸男,灘本 明代,“多言語Wikipediaを用いた
Wikipediaの高品質な情報補完手法の提案”,第3回ソーシャルコンピューティ
ングシンポジウム,(SoC2012),2012年6月
•
藤原 裕也,鈴木 優,小西 幸男,灘本 明代,“言語間比較によるWikipediaの
補完情報抽出手法の提案”,第5回Webとデータベースに関するフォーラム,
(WebDB Forum2012),2012年11月 (学生奨励賞)
•
藤原 裕也,鈴木 優,小西 幸男,灘本 明代,”異言語Wikipedia を用いた補
完情報の提示手法の提案”,第5回データ工学と情報マネジメントに関する
フォーラム,(DEIM2013),2013年3月 (to appear)
研究成果(4)
研究会発表:3本
•
藤原 裕也,灘本 明代,” Wikipediaの言語間比較による差異情報抽出手法の提
案”,第152回データベースシステム研究会,(DBS152),2011年8月
•
藤原 裕也,鈴木 優,灘本 明代,“多言語Wikipediaの差異情報抽出手法の提
案”,第153回データベースシステム研究会,(DBS153),2011年11月
•
藤原 裕也,鈴木 優,小西 幸男,灘本 明代,“コンテンツの質を考慮した多言語
Wikipedia記事の差異情報抽出手法の提案”,人工知能学会第26回全国大会,
(JSAI2012),2012年6月
研究成果(5)
ポスター発表:6本
•
藤原 裕也,鈴木 優,灘本 明代,“多言語Wikipediaの差異情報抽出手法の提案”,第153回デー
タベースシステム研究会,(DBS153),2011年11月
•
藤原 裕也,鈴木 優,小西 幸男,灘本 明代,”情報の質を考慮した多言語Wikipedia記事の差異
情報抽出手法の提案”,第4回データ工学と情報マネジメントに関するフォーラム,(DEIM2012),
2012年3月
•
藤原 裕也,鈴木 優,小西 幸男,灘本 明代,“コンテンツの質を考慮した多言語Wikipedia記事の
差異情報抽出手法の提案”,人工知能学会第26回全国大会,(JSAI2012),2012年6月
•
藤原 裕也,鈴木 優,小西 幸男,灘本 明代,“多言語Wikipediaを用いたWikipediaの高品質な情
報補完手法の提案”,第3回ソーシャルコンピューティングシンポジウム,(SoC2012),2012年6月
•
藤原 裕也,鈴木 優,小西 幸男,灘本 明代,“言語間比較によるWikipediaの補完情報抽出手法
の提案”,第5回Webとデータベースに関するフォーラム,(WebDB Forum2012),2012年11月
•
藤原 裕也,鈴木 優,小西 幸男,灘本 明代,”異言語Wikipedia を用いた補完情報の提示手法の
提案”,第5回データ工学と情報マネジメントに関するフォーラム,(DEIM2013),2013年3月 (to
appear)
賞
学生奨励賞
• 藤原 裕也,鈴木 優,小西 幸男,灘本 明代,“言語間比較に
よるWikipediaの補完情報抽出手法の提案”,第5回Webと
データベースに関するフォーラム,(WebDB Forum2012),
2012年11月(学生奨励賞)