検索クエリ及び 日本語ブログからの語彙抽出 菊池英明研究室 検索班 B4 舟引祥子 1.本研究の目的と概要 目的 検索用辞書に登録されていない語彙を獲得する方法 論の提案. 検索エンジンの検索結果の精度を高め,検索サービ スの向上を図る. 概要 検索クエリと日本語ブログをそれぞれ分析対象とした 3種の手法による語彙抽出の試行 2.本研究で試行した語彙抽出法 A) 検索クエリからの語彙抽出 B) ブログ記事を利用したカタカナ語抽出 C) 日付毎の検索クエリに含まれる単語の差分比較に よって語彙を抽出 ブログ記事本文からカテゴリ毎に,「カタカナ+英数 字+一部記号の連続」からなる語を抽出 ブログ記事を利用した複合語抽出 ブログ記事本文からカテゴリ毎に, TermExtractの 定義による複合語を抽出.辞書との差分比較を行 う 3.各抽出法の結果比較 A) 検索クエリからの語彙抽出 B) ブログ記事を利用したカタカナ語抽出 C) 固有名詞が多く,未知語として有用な語彙はほとん ど抽出されなかった(ex:闇の復讐サイト・別記第2様式 多くの未知語としての有用性の高い語彙を抽出す ることができた(ex:レベルアップ・メンテ ブログ記事を利用した複合語抽出 B)の抽出における定義外の語では,未知語として の有用性はあまり高くないものが多かったが,B)と 同条件の語彙は十分な量が抽出できた (ex:メイドカフェ・日銀金融政策決定会合 4.評価 A) 検索クエリからの語彙抽出 B) ブログ記事を利用したカタカナ語抽出 C) 一部改良を加えれば,よりよい結果の語彙抽出が 可能.ホットワードの抽出にも応用できる 効率性なども考慮すると,今回最も語彙抽出法とし ては優れていた ブログ記事を利用した複合語抽出 B)の方法だけでは取得してくることのできない漢字 を含む複合語も取得できる 5.まとめ ブログ記事本文を対象に,「カタカナ+英数字+ その他記号の連続」を抽出するのが最も効果的 語彙抽出全般にわたって,抽出された語彙を辞 書に加えるべきかどうかの判断基準が明確でな いため,その基準を確立する必要がある
© Copyright 2024 ExpyDoc