検索クエリ及び 日本語ブログからの語彙抽出

検索クエリ及び
日本語ブログからの語彙抽出
菊池英明研究室
検索班 B4 舟引祥子
1.本研究の目的と概要

目的



検索用辞書に登録されていない語彙を獲得する方法
論の提案.
検索エンジンの検索結果の精度を高め,検索サービ
スの向上を図る.
概要

検索クエリと日本語ブログをそれぞれ分析対象とした
3種の手法による語彙抽出の試行
2.本研究で試行した語彙抽出法
A)
検索クエリからの語彙抽出

B)
ブログ記事を利用したカタカナ語抽出

C)
日付毎の検索クエリに含まれる単語の差分比較に
よって語彙を抽出
ブログ記事本文からカテゴリ毎に,「カタカナ+英数
字+一部記号の連続」からなる語を抽出
ブログ記事を利用した複合語抽出

ブログ記事本文からカテゴリ毎に, TermExtractの
定義による複合語を抽出.辞書との差分比較を行
う
3.各抽出法の結果比較
A)
検索クエリからの語彙抽出

B)
ブログ記事を利用したカタカナ語抽出

C)
固有名詞が多く,未知語として有用な語彙はほとん
ど抽出されなかった(ex:闇の復讐サイト・別記第2様式
多くの未知語としての有用性の高い語彙を抽出す
ることができた(ex:レベルアップ・メンテ
ブログ記事を利用した複合語抽出

B)の抽出における定義外の語では,未知語として
の有用性はあまり高くないものが多かったが,B)と
同条件の語彙は十分な量が抽出できた
(ex:メイドカフェ・日銀金融政策決定会合
4.評価
A)
検索クエリからの語彙抽出

B)
ブログ記事を利用したカタカナ語抽出

C)
一部改良を加えれば,よりよい結果の語彙抽出が
可能.ホットワードの抽出にも応用できる
効率性なども考慮すると,今回最も語彙抽出法とし
ては優れていた
ブログ記事を利用した複合語抽出

B)の方法だけでは取得してくることのできない漢字
を含む複合語も取得できる
5.まとめ

ブログ記事本文を対象に,「カタカナ+英数字+
その他記号の連続」を抽出するのが最も効果的

語彙抽出全般にわたって,抽出された語彙を辞
書に加えるべきかどうかの判断基準が明確でな
いため,その基準を確立する必要がある