提示データの認識補助のための語の直上概念決定に関する研究 主担当教員 波多野 賢治准教授 1. はじめに 近年,インターネット上の Web ページ数増加に伴い, 大量のコンテンツに対する効率的な情報検索の需要が高 まっている.効率的な情報検索の一手法である文書分類 の既存手法では,文書が含む名詞の出現頻度から算出し た文書間類似度に基づいて再帰的にクラスタリングを行 い,クラスタ内の最頻出語をラベルとしたクラスタを階 層的に構築することで,視覚的に情報認識の補助を行っ ている [砂山他 (2012)].しかし,この手法では互換の意 味関係が考慮されず,同位概念であるラベルが異なる階 層に表示されるため,各クラスタのラベル間の階層構造 と概念の上下関係に齟齬が生じるという問題がある.同 位概念は,一つの直上概念を共有するという規則に基づ いて判断することが可能であるが,それぞれの後は複数 の直上概念を持つため,どの直上概念を基に同意概念を 定めるか決定する必要がある. そこで本研究では,日本語 WordNet[Bond et al.] のグ ラフ構造を用いて語が持つ複数の直上概念から一つの直 上概念を決定する手法を提案する. 2. 先行研究 語の上位語らしい語,同位語らしい語をランキングす る手法が佃他 (2013) により提案されている.佃他はまず, Wikipedia から抽出した語の上下関係をもとに,ある語 t の上位語集合と同位語集合からなる二部グラフを構築し ている.そして,この二部グラフをエッジを評価するア ルゴリズムを適用して t とその上位語間のエッジを重み 付けすることで t の上位語および同位語を決定している. しかし,Wikipedia のカテゴリは概念の特有性が統一 されていないため,上位語らしい語はカテゴリが含む語 の量によって過度に抽象化・具体化されてしまうという 問題点がある. 3. 提案手法 前節で述べた問題は,概念の範囲が過度に限られた語 がカテゴリとして混在することであるため,複数の語を 一つの概念に集約し,概念間の上下関係によって直上概 念を判断することで解決される.一般に,直上概念とは ある概念をより抽象化した概念を指すが,語は複数の概 念を持つため直上概念も複数存在することになる. そこで本研究では,概念間の意味関係を説明した概念 辞書である日本語 WordNet のリンク構造を用いた,ある 語 t に対する直上概念決定を以下の手順に従って行う. 18110207 眞田 和枝 副担当教員 伊藤 紀子准教授 4. t から最重要概念ノードまでの経路上にある直上概 念は,t の概念を抽象化し,かつ最重要概念を具体 化した概念であり,t から最重要概念ノードまで最 低限のノードを解する経路であれば,その概念の階 層が簡潔であると仮定する 5. t と最重要概念ノード間の最短経路を探索し,その 最短経路上に存在する t の hi を t の適切な直上概 念と決定する 図 1: WordNet のリンク構造を表す有向グラフ 4. 評価実験 語 t の適切な直上概念決定の条件として,t から最重要 概念ノードまでの経路選択が妥当であるか評価する.経 路決定について,提案する「最短経路上にある概念」, 「そ れ以外の概念」という二条件により概念を抽出し,概念 に対応する語郡を抽出する.抽出された語群に対して「t の上位概念としてふさわしいか」という問いによる 30 概 念の評価実験を被験者 20 人に行った. 実験の結果から母平均 µ の 95 % 信頼区間を求め母集 団 1,422 概念に対し最適な直上概念が抽出できるかを推 定したところ,最短経路による抽出では [713,881] 個,そ れ以外の経路では [421,557] 個について t に最適な直上 概念であると評価され,最短経路による条件がそれ以外 の条件よりも妥当であると言える.その理由として,最 重要概念ノードまでの最短経路上の概念は祖先のノード が少なく,より範囲の狭い概念を選択したことから,語 t のみに当てはまるような限定的な概念を選んだために良 い結果になったと考えられる. 5. おわりに 本研究では,日本語 WordNet のリンク構造を用いた, ある語に対する適切な直上概念決定を行った.評価実験 の結果から,提案手法で決定した直上概念は語に適切で あるとわかった.今後の課題として,従来手法と比較し, 提案手法の有用性を評価する必要がある. 1. 図 1 に示すように WordNet の概念をノード,リン クをエッジとする有向グラフを構築し,t に隣接す 参考文献 る上位ノード h1 , h2 , . . . , hn を t の直上概念とする Bond, F., Isahara, H., Fujita, S., Uchimoto, K., Kuribayashi, T., and Kanzaki, K.Enhancing the Japanese 2. 共通祖先を持つ直上概念ならそれらは t に適切な直 Wordnet, in Proceedings of the 7th Workshop on 上概念であると仮定し,hi (1 ≤ i ≤ n) の n C2 通りの Asian Language Resources. 組合せの最小共通祖先(Lowest Common Ansestor: LCA)にあたるノードを抽出する 砂山渡,濱岡秀平,奥田澄 (2012). 『情報収集のための テキストデータ集合の再帰的クラスタリング』 『知能と 情報』, 24 (3), 697–706. 3. t までの距離が遠い場合は,概念が過度に抽象化さ れる可能性があるため,hi から各 LCA までの最 短経路を求め,距離が最も短い LCA を最重要概念 佃光摂,大島裕明,田中克己 (2013). 『上位下位概念辞 書を用いた同位語・上位語のランキング手法の提案』 ノードと定義する WebDB Forum 2013, B4–1.
© Copyright 2024 ExpyDoc