クラスター分析から探る論文間の繋がり 情報理工学部 情報知能学科 H206018 柏木 康志 2010年 2月 2日 研究動機と目的 • 論文を調べるときにどの論文を読めば良いの かわからない • 「この分野はこの論文を読むとわかる」という 論文があれば、探す労力と時間の短縮にな るのではないかと考えた。 研究の概要 • 年代ごとの論文の特徴を調べる • 年代から年代への特徴の移り代わりを関連 付ける • その中で沢山引用された論文が一番重要な 論文ではないかと考えた 手法 • どんな分野の研究が行われているか。 • 年代の特徴的な研究や傾向を知るためにク ラスター分析を行う クラスター分析とは • データの集まりをデータ間の類似度(あるいは 非類似度)に従って、いくつかのグループに分 けることをクラスタリングと言う (金,2009 ,p.34 ) • クラスター分析とは大量にあるデータをクラス タリングすることである クラスター分析までの流れ ① 論文データの収集 ② ターム(用語)・文章行列の作成 ③ クラスター分析 ①データ • NII論文情報ナビゲータCiNii(http://ci.nii.ac.jp/ )に 載っている論文を対象 • CiNiiは、学協会誌約1000タイトル、約280万件の論 文が掲載されているサイト • 本文から特徴を調べようとすると膨大なデータ量と 時間がかかるため、「タイトル」、「キーワード」、「ア ブストラクト(概要)」のみで特徴を抽出する データの絞込み • • 検索するキーワードを「自然言語処理」にする 対象とする論文誌・学会誌・研究報告を • • • • • • • • 「自然言語処理」 「情報処理」 「電子情報通信」 「人工知能」 「言語処理」 の名が付くもの 英語で書かれた論文は含めない 同一著者タイトルの論文は一つにする タイトルだけしか情報がない論文は対象外 対象論文の期間 • 2002年、2005年、2008年の論文を対象とす る 絞込み前 絞込み後 2002年 239件 161件 2005年 344件 214件 2008年 258件 141件 使用ツール • 本研究では形態素解析にMeCab(0.98 版 ), 実行環境にR言語(2.10.0 版)を用いている • MeCabで解析した結果をRで利用するため にRのパッケージであるRMeCab(0.86 版)を 導入した ②ターム・文章行列の作成(1) • 各年代ごとにターム・文章行列を作成する • ターム・文章行列とは、文書に出現する語の 頻度を表にしたものである • 頻度表から論文間の類似度を計算する • RMeCabではターム・文章行列を作成する docMatrix関数が備わっている ターム・文章行列の作成(2) • 抽出してくる品詞は名詞のみを指定 • 重み付けにTF-IDFを用いる。TFは対数化索引語頻 度、IDFは文書頻度の逆数 TF = log(Fij+1) IDF =log N/ni Fijは文書jでの索引語iの頻度。Nは文書の数、niはタームを含む文書の数。 • これにより特定のテキストでしか現れない単語が重 要視される • (コサイン)正規化を行う TF・ IDF 2 ( TF ・ IDF ) ターム・文章行列の例 論文のタイトル タ ー ム ③クラスター分析の適用 • ターム・文章行列を使ってクラスター分析を行う • 論文間の距離の計算方法としてユークリッド距離を 用いた • さらにクラスターの位置づけにウォード法を用い、各 クラスターを位置づけた • ウォード法は2つのクラスターを融合した際に、群内 の分散と群間の分散の比を最大化する基準でクラ スターを形成していく方法である(金,2005,p4) 2002年 クラスター分割 • クラスターを高さ1.5のところで分割する – 高い所で分割するとクラスターの特徴が見えにく くなる – 逆に低すぎる所で分割するとクラスターとしての まとまりがなくなり、特徴が見えなくなる。 • 試行錯誤した結果高さ1.5のところがま とまりとしてはちょうど良い高さだと判断 した 高さ 1.5 2002年 • 文章概念記憶ニューラルネットワーク • 日本語LFGパーザによる助詞・助動詞の無形 表示の統語意味解析 • 語彙概念構造を利用した助詞「に」に関する 複合名詞の分析 など 分割クラスターの数 • 論文数が6件以上のクラスターをピックアップ 2002年 161件で8個 2005年 214件で12個 2008年 141件で8個 結果 • 年代ごとの特徴 • 年代間の関係 2002年の論文の特徴 • クラスター① 44件 • カテゴリー:意味、言語、概念、語彙 – 言語の概念的な意味 • クラスター② 12件 • カテゴリー:検索、入力、文書 – 入力の仕方や検索の仕方 • クラスター③ 12件 • カテゴリー:用語、関係、自動、獲得 – 用語の関係付けとその自動獲得 • クラスター④ 12件 • カテゴリー:対話、発話、音声、理解 – 発話や対話の理解 2005年の論文の特徴 • クラスター① 29件 • カテゴリー:表現、意味、概念、構造、抽出 – 意味表現や概念、言語構造など • クラスター② 25件 • カテゴリー:要約、対話、システム、コーパス – 記事などの要約、対話認識システム • クラスター③ 19件 • カテゴリー:画像、空間、識別、尺度、特徴 – 画像から特徴を認識 • クラスター④ 16件 • カテゴリー:換言、獲得、対訳、言語 – 言葉の言い換えや訳 2008年の論文の特徴 • クラスター① 35件 • カテゴリー:検索、概念、トピック、コーパス、ブログ – ブログなどから話題の抽出 • クラスター② 26件 • カテゴリー:解析、特徴、学習、ブログ、意味、関係 – 意味関係や特徴の解析 • クラスター③ 18件 • カテゴリー:翻訳、機械、対訳、構造、解析 – 機械翻訳、対訳、構造など • クラスター④ 13件 • カテゴリー:類似、文書、クラスタリング – 文書からの類似の解析 比較のグラフ 100% 90% 80% 分類 音声 70% 60% 要約 40% 30% 20% 類似 関係 50% 翻訳 検索 意味 10% 0% 2002年 2005年 2008年 2002年の考察 • 意味や言語の概念などの研究は2005年、 2008年から見ても比較的多いことがわかっ た。 • 言語の概念を研究したいのであれば2002年 の論文を参考にしてみたら良い。 – 「連想システムのための概念ベース構成法 : 属性信頼度の考え方に 基づく属性重みの決定」(小島 一秀 他) – 自然言語処理9(5) pp.93-110(20021010) – 被引用論文数 14件 2005年の考察 • 機械翻訳に関する研究が2005年で見られ、 2008年ではその研究が増えてきている。 • 機械翻訳について研究したいのであれば、 2005年の論文を調べると良い。 – 「機械翻訳を介したコミュニケーションにおける利用者の機械翻訳シ ステム適応の言語依存性」(小倉 健太郎) – 自然言語処理12(3) pp.183-201(20050710) – 被引用論文数 6件 2008年の考察 • 2008年はblogなどから人の評判や話題など を分析する研究が多く行われた年だった。 • 話題の研究を始めたい人は2008年の論文を 調べると良い。 – 被引用論文数が無い – 「トピック関連語の推定と文書ランキングへの適用」(石川 浩一郎 他) – 情報処理学会研究報告. 自然言語処理研究会報告2008(90) pp.7781(20080917) 今後の課題 • クラスター分析以外の分析(例:潜在意味解 析など)で調べる。 • 同じ意味の語をまとめる(例:サポートベクトル マシンとサポートベクターマシーンなど) 参考文献 • CiNii http://ci.nii.ac.jp/ 2009年9月に参照 • 石田基広. (2008). 『Rによるテキストマイニング入門』. 森北 出版 • 金明哲 (2005).『フリーソフトによるデータ解析・マイニング第 28 回Rとクラスター分析 (1) 』 :http://www1.doshisha.ac.jp/~mjin/R/28.pdf 2009/12/14アクセス • 金明哲. (2009).『テキストデータの統計科学入門』.東京:岩 波書店 • 新納浩幸. (2007).『Rで学ぶクラスタ解析』.東京:オーム社
© Copyright 2024 ExpyDoc