クラスター分析から探る論文間の関係

クラスター分析から探る論文間の繋がり
情報理工学部 情報知能学科
H206018 柏木 康志
2010年 2月 2日
研究動機と目的
• 論文を調べるときにどの論文を読めば良いの
かわからない
• 「この分野はこの論文を読むとわかる」という
論文があれば、探す労力と時間の短縮にな
るのではないかと考えた。
研究の概要
• 年代ごとの論文の特徴を調べる
• 年代から年代への特徴の移り代わりを関連
付ける
• その中で沢山引用された論文が一番重要な
論文ではないかと考えた
手法
• どんな分野の研究が行われているか。
• 年代の特徴的な研究や傾向を知るためにク
ラスター分析を行う
クラスター分析とは
• データの集まりをデータ間の類似度(あるいは
非類似度)に従って、いくつかのグループに分
けることをクラスタリングと言う
(金,2009 ,p.34 )
• クラスター分析とは大量にあるデータをクラス
タリングすることである
クラスター分析までの流れ
①
論文データの収集
② ターム(用語)・文章行列の作成
③
クラスター分析
①データ
• NII論文情報ナビゲータCiNii(http://ci.nii.ac.jp/ )に
載っている論文を対象
• CiNiiは、学協会誌約1000タイトル、約280万件の論
文が掲載されているサイト
• 本文から特徴を調べようとすると膨大なデータ量と
時間がかかるため、「タイトル」、「キーワード」、「ア
ブストラクト(概要)」のみで特徴を抽出する
データの絞込み
•
•
検索するキーワードを「自然言語処理」にする
対象とする論文誌・学会誌・研究報告を
•
•
•
•
•
•
•
•
「自然言語処理」
「情報処理」
「電子情報通信」
「人工知能」
「言語処理」
の名が付くもの
英語で書かれた論文は含めない
同一著者タイトルの論文は一つにする
タイトルだけしか情報がない論文は対象外
対象論文の期間
• 2002年、2005年、2008年の論文を対象とす
る
絞込み前
絞込み後
2002年 239件
161件
2005年 344件
214件
2008年 258件
141件
使用ツール
• 本研究では形態素解析にMeCab(0.98 版 ),
実行環境にR言語(2.10.0 版)を用いている
• MeCabで解析した結果をRで利用するため
にRのパッケージであるRMeCab(0.86 版)を
導入した
②ターム・文章行列の作成(1)
• 各年代ごとにターム・文章行列を作成する
• ターム・文章行列とは、文書に出現する語の
頻度を表にしたものである
• 頻度表から論文間の類似度を計算する
• RMeCabではターム・文章行列を作成する
docMatrix関数が備わっている
ターム・文章行列の作成(2)
• 抽出してくる品詞は名詞のみを指定
• 重み付けにTF-IDFを用いる。TFは対数化索引語頻
度、IDFは文書頻度の逆数
TF = log(Fij+1) IDF =log N/ni
Fijは文書jでの索引語iの頻度。Nは文書の数、niはタームを含む文書の数。
• これにより特定のテキストでしか現れない単語が重
要視される
• (コサイン)正規化を行う
TF・ IDF
2
(
TF
・
IDF
)

ターム・文章行列の例
論文のタイトル
タ
ー
ム
③クラスター分析の適用
• ターム・文章行列を使ってクラスター分析を行う
• 論文間の距離の計算方法としてユークリッド距離を
用いた
• さらにクラスターの位置づけにウォード法を用い、各
クラスターを位置づけた
• ウォード法は2つのクラスターを融合した際に、群内
の分散と群間の分散の比を最大化する基準でクラ
スターを形成していく方法である(金,2005,p4)
2002年
クラスター分割
• クラスターを高さ1.5のところで分割する
– 高い所で分割するとクラスターの特徴が見えにく
くなる
– 逆に低すぎる所で分割するとクラスターとしての
まとまりがなくなり、特徴が見えなくなる。
• 試行錯誤した結果高さ1.5のところがま
とまりとしてはちょうど良い高さだと判断
した
高さ 1.5
2002年
• 文章概念記憶ニューラルネットワーク
• 日本語LFGパーザによる助詞・助動詞の無形
表示の統語意味解析
• 語彙概念構造を利用した助詞「に」に関する
複合名詞の分析
など
分割クラスターの数
• 論文数が6件以上のクラスターをピックアップ
2002年 161件で8個
2005年 214件で12個
2008年 141件で8個
結果
• 年代ごとの特徴
• 年代間の関係
2002年の論文の特徴
• クラスター① 44件
• カテゴリー:意味、言語、概念、語彙
– 言語の概念的な意味
• クラスター② 12件
• カテゴリー:検索、入力、文書
– 入力の仕方や検索の仕方
• クラスター③ 12件
• カテゴリー:用語、関係、自動、獲得
– 用語の関係付けとその自動獲得
• クラスター④ 12件
• カテゴリー:対話、発話、音声、理解
– 発話や対話の理解
2005年の論文の特徴
• クラスター① 29件
• カテゴリー:表現、意味、概念、構造、抽出
– 意味表現や概念、言語構造など
• クラスター② 25件
• カテゴリー:要約、対話、システム、コーパス
– 記事などの要約、対話認識システム
• クラスター③ 19件
• カテゴリー:画像、空間、識別、尺度、特徴
– 画像から特徴を認識
• クラスター④ 16件
• カテゴリー:換言、獲得、対訳、言語
– 言葉の言い換えや訳
2008年の論文の特徴
• クラスター① 35件
• カテゴリー:検索、概念、トピック、コーパス、ブログ
– ブログなどから話題の抽出
• クラスター② 26件
• カテゴリー:解析、特徴、学習、ブログ、意味、関係
– 意味関係や特徴の解析
• クラスター③ 18件
• カテゴリー:翻訳、機械、対訳、構造、解析
– 機械翻訳、対訳、構造など
• クラスター④ 13件
• カテゴリー:類似、文書、クラスタリング
– 文書からの類似の解析
比較のグラフ
100%
90%
80%
分類
音声
70%
60%
要約
40%
30%
20%
類似
関係
50%
翻訳
検索
意味
10%
0%
2002年
2005年
2008年
2002年の考察
• 意味や言語の概念などの研究は2005年、
2008年から見ても比較的多いことがわかっ
た。
• 言語の概念を研究したいのであれば2002年
の論文を参考にしてみたら良い。
– 「連想システムのための概念ベース構成法 : 属性信頼度の考え方に
基づく属性重みの決定」(小島 一秀 他)
– 自然言語処理9(5) pp.93-110(20021010)
– 被引用論文数 14件
2005年の考察
• 機械翻訳に関する研究が2005年で見られ、
2008年ではその研究が増えてきている。
• 機械翻訳について研究したいのであれば、
2005年の論文を調べると良い。
– 「機械翻訳を介したコミュニケーションにおける利用者の機械翻訳シ
ステム適応の言語依存性」(小倉 健太郎)
– 自然言語処理12(3) pp.183-201(20050710)
– 被引用論文数 6件
2008年の考察
• 2008年はblogなどから人の評判や話題など
を分析する研究が多く行われた年だった。
• 話題の研究を始めたい人は2008年の論文を
調べると良い。
– 被引用論文数が無い
– 「トピック関連語の推定と文書ランキングへの適用」(石川 浩一郎 他)
– 情報処理学会研究報告. 自然言語処理研究会報告2008(90) pp.7781(20080917)
今後の課題
• クラスター分析以外の分析(例:潜在意味解
析など)で調べる。
• 同じ意味の語をまとめる(例:サポートベクトル
マシンとサポートベクターマシーンなど)
参考文献
• CiNii http://ci.nii.ac.jp/ 2009年9月に参照
• 石田基広. (2008). 『Rによるテキストマイニング入門』. 森北
出版
• 金明哲 (2005).『フリーソフトによるデータ解析・マイニング第
28 回Rとクラスター分析
(1) 』 :http://www1.doshisha.ac.jp/~mjin/R/28.pdf
2009/12/14アクセス
• 金明哲. (2009).『テキストデータの統計科学入門』.東京:岩
波書店
• 新納浩幸. (2007).『Rで学ぶクラスタ解析』.東京:オーム社