提示データの認識補助のための語の直上概念決定に関する研究

提示データの認識補助のための語の直上概念決定に関する研究
主担当教員
波多野 賢治准教授
1. はじめに
近年,インターネット上の Web ページ数増加に伴い,
大量のコンテンツに対する効率的な情報検索の需要が高
まっている.効率的な情報検索の一手法である文書分類
の既存手法では,文書が含む名詞の出現頻度から算出し
た文書間類似度に基づいて再帰的にクラスタリングを行
い,クラスタ内の最頻出語をラベルとしたクラスタを階
層的に構築することで,視覚的に情報認識の補助を行っ
ている [砂山他 (2012)].しかし,この手法では互換の意
味関係が考慮されず,同位概念であるラベルが異なる階
層に表示されるため,各クラスタのラベル間の階層構造
と概念の上下関係に齟齬が生じるという問題がある.同
位概念は,一つの直上概念を共有するという規則に基づ
いて判断することが可能であるが,それぞれの後は複数
の直上概念を持つため,どの直上概念を基に同意概念を
定めるか決定する必要がある.
そこで本研究では,日本語 WordNet[Bond et al.] のグ
ラフ構造を用いて語が持つ複数の直上概念から一つの直
上概念を決定する手法を提案する.
2. 先行研究
語の上位語らしい語,同位語らしい語をランキングす
る手法が佃他 (2013) により提案されている.佃他はまず,
Wikipedia から抽出した語の上下関係をもとに,ある語 t
の上位語集合と同位語集合からなる二部グラフを構築し
ている.そして,この二部グラフをエッジを評価するア
ルゴリズムを適用して t とその上位語間のエッジを重み
付けすることで t の上位語および同位語を決定している.
しかし,Wikipedia のカテゴリは概念の特有性が統一
されていないため,上位語らしい語はカテゴリが含む語
の量によって過度に抽象化・具体化されてしまうという
問題点がある.
3. 提案手法
前節で述べた問題は,概念の範囲が過度に限られた語
がカテゴリとして混在することであるため,複数の語を
一つの概念に集約し,概念間の上下関係によって直上概
念を判断することで解決される.一般に,直上概念とは
ある概念をより抽象化した概念を指すが,語は複数の概
念を持つため直上概念も複数存在することになる.
そこで本研究では,概念間の意味関係を説明した概念
辞書である日本語 WordNet のリンク構造を用いた,ある
語 t に対する直上概念決定を以下の手順に従って行う.
18110207 眞田 和枝
副担当教員 伊藤 紀子准教授
4. t から最重要概念ノードまでの経路上にある直上概
念は,t の概念を抽象化し,かつ最重要概念を具体
化した概念であり,t から最重要概念ノードまで最
低限のノードを解する経路であれば,その概念の階
層が簡潔であると仮定する
5. t と最重要概念ノード間の最短経路を探索し,その
最短経路上に存在する t の hi を t の適切な直上概
念と決定する
図 1: WordNet のリンク構造を表す有向グラフ
4. 評価実験
語 t の適切な直上概念決定の条件として,t から最重要
概念ノードまでの経路選択が妥当であるか評価する.経
路決定について,提案する「最短経路上にある概念」,
「そ
れ以外の概念」という二条件により概念を抽出し,概念
に対応する語郡を抽出する.抽出された語群に対して「t
の上位概念としてふさわしいか」という問いによる 30 概
念の評価実験を被験者 20 人に行った.
実験の結果から母平均 µ の 95 % 信頼区間を求め母集
団 1,422 概念に対し最適な直上概念が抽出できるかを推
定したところ,最短経路による抽出では [713,881] 個,そ
れ以外の経路では [421,557] 個について t に最適な直上
概念であると評価され,最短経路による条件がそれ以外
の条件よりも妥当であると言える.その理由として,最
重要概念ノードまでの最短経路上の概念は祖先のノード
が少なく,より範囲の狭い概念を選択したことから,語 t
のみに当てはまるような限定的な概念を選んだために良
い結果になったと考えられる.
5. おわりに
本研究では,日本語 WordNet のリンク構造を用いた,
ある語に対する適切な直上概念決定を行った.評価実験
の結果から,提案手法で決定した直上概念は語に適切で
あるとわかった.今後の課題として,従来手法と比較し,
提案手法の有用性を評価する必要がある.
1. 図 1 に示すように WordNet の概念をノード,リン
クをエッジとする有向グラフを構築し,t に隣接す 参考文献
る上位ノード h1 , h2 , . . . , hn を t の直上概念とする Bond, F., Isahara, H., Fujita, S., Uchimoto, K., Kuribayashi, T., and Kanzaki, K.Enhancing the Japanese
2. 共通祖先を持つ直上概念ならそれらは t に適切な直
Wordnet, in Proceedings of the 7th Workshop on
上概念であると仮定し,hi (1 ≤ i ≤ n) の n C2 通りの
Asian Language Resources.
組合せの最小共通祖先(Lowest Common Ansestor:
LCA)にあたるノードを抽出する
砂山渡,濱岡秀平,奥田澄 (2012). 『情報収集のための
テキストデータ集合の再帰的クラスタリング』
『知能と
情報』, 24 (3), 697–706.
3. t までの距離が遠い場合は,概念が過度に抽象化さ
れる可能性があるため,hi から各 LCA までの最
短経路を求め,距離が最も短い LCA を最重要概念 佃光摂,大島裕明,田中克己 (2013). 『上位下位概念辞
書を用いた同位語・上位語のランキング手法の提案』
ノードと定義する
WebDB Forum 2013, B4–1.