重み付けユークリッド距離を用いた重要文献情報抽出法 佐々木 裕三 1 序論 馬目 慎太郎 朝香 卓也 本研究では,メタデータは文献・著者・キーワード の 3 種類を使用する.それらをノードとし,メタデー 近年,国内外の政府・公共機関が,所有するデータ をオープンデータとして公開する動きにある.デー タ間に関係性があればリンクを張る.作成したネット ワークは 2 値の隣接行列で表現する. タを公開・共有する手法としては,Linked Data が ユークリッド距離で類似性を評価する場合には,2 推奨されている.そのため,多くのデータベースで つの問題点が生じる.本論文では,ユークリッド距離 Linked Data 化が進められており,各データベース間 の問題点として,ノード間の相関が考慮されていな での連携が進められている.最近では,論文情報も い点と,類似性が高くない場合にも構造同値と判断 Linked Data 化されており,さまざまな検索の仕方が 可能である.しかし,目的としている論文の分野に精 されてしまう場合があるという点が挙げられる. 通していない者は,少ない知識でしか検索を行うこ を拡張したものとして,中心性の値に基づいた重み付 とができないために Linked Data を最大限利用でき けユークリッド距離を定義した.各ノードに対して, ない.また,これまでに論文の引用関係や研究者ネッ 次数中心性・媒介中心性・近接中心性・固有ベクトル トワーク対する多くの研究が行われてきた.[1] では, 中心性の 4 つの中心性指標を算出する.各中心性指 引用関係ネットワークはグループ構造を持たず,ノー 標の値を中心性が高いものが 1 となるように標準化 ドの入次数がべき乗則に従い,共著関係ネットワーク を行う.1 からその値を引いたものをノードの属性値 はグループ構造とスケールフリー構造を持つことを とし,リンクの両端のノードの属性値を平均する.次 示している. に,リンクの重みをそのネットワークの隣接行列に掛 これらの問題を解決するためにユークリッド距離 また,[2] では研究者の媒介性によって、その後の け,無向重み付きネットワークを作成する.このネッ 時点での研究者の共著関係をある程度予測できるこ トワークから,ユークリッド距離を求める.重み付 とが確認された.既存研究の多くは,論文のみや著 けユークリッド距離の計算式を以下に示す.ここで, 者のみを対象とし,論文の中身を考慮していないと ノード s, t 間のリンクの重みを αst とする. いう問題点が存在する.今後,論文数は増えていき, 利用者にとって利用対象となるデータ数が増えてい くと予想される.論文のデータ量が膨大であること は,目的の論文にたどり着くまでの論文検索の時間 増加につながる.そのため,重要度や関連度,類似性 といった尺度をもった検索機能や推薦システムが必要 とされる. そこで,本論文では,Linked Data のグラフ構造を 利用して,論文に付与された技術的なキーワードを 含んだネットワークを分析し,論文の中身を読むこと [∑ N { (αik・xik − αjk・xjk )2 Dij = k=1 +(αki・xki − αkj・xkj )2 (1) }] 12 . このような重みを定義することで,ノード間の相 関を考慮することができる.また,ユークリッド距離 で評価した場合に構造同値なノードにおいても,中 心性の値の違いにより差異が生まれる. なく重要参考文献を抽出する手法を提案する. 2 提案手法 3 提案手法によるケーススタディ 提案手法の適用例として,ケーススタディの結果 Linked Data のグラフ構造を用いて,論文に付与さ れているメタデータを含んだネットワークの構造を を示す.ケーススタディは 4 ケース行ったが,そのう 分析し,参考文献の中から関連度の高いものを抽出 ワードの被り数・リンクの被り数を従来手法として, する手法を提案する. ちの 2 ケースの結果を示す.ユークリッド距離・キー 提案手法との比較を行い,ネットワークを作成する際 に,I-Scover から取得した論文情報を使用した. 表 1: ケース 1 における従来手法の結果 文献 A 文献 B キーワード リンク ユークリッド距離 1 1 2 2 3.16 3.46 表 2: ケース 1 における各重み付けユークリッド距離 次数 媒介 近接 固有ベクトル 文献 A 1.81 3.12 1.14 1.65 文献 B 1.79 3.42 1.17 1.50 表 4: ケース 2 における各重み付けユークリッド距離 次数 媒介中 近接 固有ベクトル 文献 A 2.33 3.40 1.23 1.91 文献 B 3.06 4.87 1.63 2.41 文献 C 2.99 4.67 1.59 2.45 文献 D 2.19 3.26 1.16 1.76 文献 E 2.134 3.23 1.13 1.73 ケース 1 では,作成したネットワークはノード数 17(文献 3,著者 5,キーワード 9)であり,参考文献 のうち,重要参考文献であるのは文献 B である.従 来手法の結果を表 1 に示す.また,重み付けユーク リッド距離の結果を表 2 に示す. キーワード・リンクの被り数からは重要参考文献を 図 1: 重要度によるマッピング 判断できない.また,ユークリッド距離においては, て,ネットワーク上における元論文との関連度,横軸 重要参考文献を抽出できていない.次数中心性・固 には中心性をマッピングする (図 1).これにより,元 有ベクトル中心性による重み付けにおいては,重要 論文上での重要度とキーワードのネットワーク上で 参考文献を抽出できていることが確認できる.従来 の重要度を可視化することができる. 方式では,ノード間の相関を考慮していないために, 作成したネットワーク上での中心性でグラフを作 関連度の低い文献を重要参考文献だと抽出する結果 成したが,大きな分野での部分グラフにおける中心 が得られた.このように,従来方式と比較し,提案手 性を横軸にした場合の方がより意味を持つ. 法が有効な手法であることがわかる. ケース 2 では,ノード数 36(文献 6,著者 11,キー ワード 19)であり,文献 A は元論文の先行研究であ り,文献 D,E は発展研究であるために,この 3 件が 4 結論 論文データベースの論文情報において重要参考文 重要参考文献となる.従来手法の結果を表 3 に示す. 献を抽出するために,中心性の値に基づいた重み付 重み付けユークリッド距離の結果を表 4 に示す. けユークリッド距離を提案した.さらに,ケーススタ 各重み付けユークリッド距離と従来手法を比較す る.全ての指標において,関連性が高い参考文献は, ディを行い,従来手法と比較した場合にその有用性を 示した. 文献 D であることがわかる.文献 D,E はユークリッ 本研究では,検証を行ったケースが少なく,ノード ド距離が同値である.しかし,重み付けユークリッド 数も多いわけではないため,有用性を統計的に評価す 距離では,文献 E の方が距離が近く,差別化するこ るには十分ではない.今後の課題として,多数のネッ とができている.中心性に基づいて,より関連度の高 トワークや大規模なネットワークでの検証を行う必 い論文が抽出できることから,提案手法が従来方式 要がある. に比べて有効な手段であると言える. また,縦軸には重み付けユークリッド距離を用い 表 3: ケース 2 における従来手法の結果 文献 A 文献 B 文献 C 文献 D 文献 E キーワード リンク ユークリッド距離 4 0 0 5 4 5 0 0 7 6 3.46 5.00 4.80 3.32 3.32 参考文献 [1] 杉山 浩平, 大崎 博之, 今瀬 眞, ”論文の引用・共著関係 から何が分かるか?,” 電子情報通信学会信学技報, Vol. 106, No. 42, pp. 85-90, 2006. [2] 安田 雪, 松尾 豊, ”人工知能学会における研究者ネット ワークの分析,” 第 19 回人工知能学会全国大会, 2005.
© Copyright 2024 ExpyDoc