重み付けユークリッド距離を用いた重要文献情報抽出法 1 序論 2 提案

重み付けユークリッド距離を用いた重要文献情報抽出法
佐々木 裕三
1 序論
馬目 慎太郎
朝香 卓也
本研究では,メタデータは文献・著者・キーワード
の 3 種類を使用する.それらをノードとし,メタデー
近年,国内外の政府・公共機関が,所有するデータ
をオープンデータとして公開する動きにある.デー
タ間に関係性があればリンクを張る.作成したネット
ワークは 2 値の隣接行列で表現する.
タを公開・共有する手法としては,Linked Data が
ユークリッド距離で類似性を評価する場合には,2
推奨されている.そのため,多くのデータベースで
つの問題点が生じる.本論文では,ユークリッド距離
Linked Data 化が進められており,各データベース間
の問題点として,ノード間の相関が考慮されていな
での連携が進められている.最近では,論文情報も
い点と,類似性が高くない場合にも構造同値と判断
Linked Data 化されており,さまざまな検索の仕方が
可能である.しかし,目的としている論文の分野に精
されてしまう場合があるという点が挙げられる.
通していない者は,少ない知識でしか検索を行うこ
を拡張したものとして,中心性の値に基づいた重み付
とができないために Linked Data を最大限利用でき
けユークリッド距離を定義した.各ノードに対して,
ない.また,これまでに論文の引用関係や研究者ネッ
次数中心性・媒介中心性・近接中心性・固有ベクトル
トワーク対する多くの研究が行われてきた.[1] では,
中心性の 4 つの中心性指標を算出する.各中心性指
引用関係ネットワークはグループ構造を持たず,ノー
標の値を中心性が高いものが 1 となるように標準化
ドの入次数がべき乗則に従い,共著関係ネットワーク
を行う.1 からその値を引いたものをノードの属性値
はグループ構造とスケールフリー構造を持つことを
とし,リンクの両端のノードの属性値を平均する.次
示している.
に,リンクの重みをそのネットワークの隣接行列に掛
これらの問題を解決するためにユークリッド距離
また,[2] では研究者の媒介性によって、その後の
け,無向重み付きネットワークを作成する.このネッ
時点での研究者の共著関係をある程度予測できるこ
トワークから,ユークリッド距離を求める.重み付
とが確認された.既存研究の多くは,論文のみや著
けユークリッド距離の計算式を以下に示す.ここで,
者のみを対象とし,論文の中身を考慮していないと
ノード s, t 間のリンクの重みを αst とする.
いう問題点が存在する.今後,論文数は増えていき,
利用者にとって利用対象となるデータ数が増えてい
くと予想される.論文のデータ量が膨大であること
は,目的の論文にたどり着くまでの論文検索の時間
増加につながる.そのため,重要度や関連度,類似性
といった尺度をもった検索機能や推薦システムが必要
とされる.
そこで,本論文では,Linked Data のグラフ構造を
利用して,論文に付与された技術的なキーワードを
含んだネットワークを分析し,論文の中身を読むこと
[∑
N {
(αik・xik − αjk・xjk )2
Dij =
k=1
+(αki・xki − αkj・xkj )2
(1)
}] 12
.
このような重みを定義することで,ノード間の相
関を考慮することができる.また,ユークリッド距離
で評価した場合に構造同値なノードにおいても,中
心性の値の違いにより差異が生まれる.
なく重要参考文献を抽出する手法を提案する.
2 提案手法
3 提案手法によるケーススタディ
提案手法の適用例として,ケーススタディの結果
Linked Data のグラフ構造を用いて,論文に付与さ
れているメタデータを含んだネットワークの構造を
を示す.ケーススタディは 4 ケース行ったが,そのう
分析し,参考文献の中から関連度の高いものを抽出
ワードの被り数・リンクの被り数を従来手法として,
する手法を提案する.
ちの 2 ケースの結果を示す.ユークリッド距離・キー
提案手法との比較を行い,ネットワークを作成する際
に,I-Scover から取得した論文情報を使用した.
表 1: ケース 1 における従来手法の結果
文献 A
文献 B
キーワード リンク
ユークリッド距離
1
1
2
2
3.16
3.46
表 2: ケース 1 における各重み付けユークリッド距離
次数 媒介
近接 固有ベクトル
文献 A
1.81
3.12
1.14
1.65
文献 B
1.79
3.42
1.17
1.50
表 4: ケース 2 における各重み付けユークリッド距離
次数 媒介中
近接 固有ベクトル
文献 A
2.33
3.40
1.23
1.91
文献 B
3.06
4.87
1.63
2.41
文献 C
2.99
4.67
1.59
2.45
文献 D
2.19
3.26
1.16
1.76
文献 E
2.134
3.23
1.13
1.73
ケース 1 では,作成したネットワークはノード数
17(文献 3,著者 5,キーワード 9)であり,参考文献
のうち,重要参考文献であるのは文献 B である.従
来手法の結果を表 1 に示す.また,重み付けユーク
リッド距離の結果を表 2 に示す.
キーワード・リンクの被り数からは重要参考文献を
図 1: 重要度によるマッピング
判断できない.また,ユークリッド距離においては,
て,ネットワーク上における元論文との関連度,横軸
重要参考文献を抽出できていない.次数中心性・固
には中心性をマッピングする (図 1).これにより,元
有ベクトル中心性による重み付けにおいては,重要
論文上での重要度とキーワードのネットワーク上で
参考文献を抽出できていることが確認できる.従来
の重要度を可視化することができる.
方式では,ノード間の相関を考慮していないために,
作成したネットワーク上での中心性でグラフを作
関連度の低い文献を重要参考文献だと抽出する結果
成したが,大きな分野での部分グラフにおける中心
が得られた.このように,従来方式と比較し,提案手
性を横軸にした場合の方がより意味を持つ.
法が有効な手法であることがわかる.
ケース 2 では,ノード数 36(文献 6,著者 11,キー
ワード 19)であり,文献 A は元論文の先行研究であ
り,文献 D,E は発展研究であるために,この 3 件が
4 結論
論文データベースの論文情報において重要参考文
重要参考文献となる.従来手法の結果を表 3 に示す.
献を抽出するために,中心性の値に基づいた重み付
重み付けユークリッド距離の結果を表 4 に示す.
けユークリッド距離を提案した.さらに,ケーススタ
各重み付けユークリッド距離と従来手法を比較す
る.全ての指標において,関連性が高い参考文献は,
ディを行い,従来手法と比較した場合にその有用性を
示した.
文献 D であることがわかる.文献 D,E はユークリッ
本研究では,検証を行ったケースが少なく,ノード
ド距離が同値である.しかし,重み付けユークリッド
数も多いわけではないため,有用性を統計的に評価す
距離では,文献 E の方が距離が近く,差別化するこ
るには十分ではない.今後の課題として,多数のネッ
とができている.中心性に基づいて,より関連度の高
トワークや大規模なネットワークでの検証を行う必
い論文が抽出できることから,提案手法が従来方式
要がある.
に比べて有効な手段であると言える.
また,縦軸には重み付けユークリッド距離を用い
表 3: ケース 2 における従来手法の結果
文献 A
文献 B
文献 C
文献 D
文献 E
キーワード リンク
ユークリッド距離
4
0
0
5
4
5
0
0
7
6
3.46
5.00
4.80
3.32
3.32
参考文献
[1] 杉山 浩平, 大崎 博之, 今瀬 眞, ”論文の引用・共著関係
から何が分かるか?,” 電子情報通信学会信学技報, Vol.
106, No. 42, pp. 85-90, 2006.
[2] 安田 雪, 松尾 豊, ”人工知能学会における研究者ネット
ワークの分析,” 第 19 回人工知能学会全国大会, 2005.