PowerPoint プレゼンテーション

2006-10-4 JIMA秋季大会
県立広島大学
文書分類モデルの統計的性質
に関する一考察
後藤 正幸(武蔵工業大学 環境情報学部 )
平澤 茂一(早稲田大学 理工学部)
俵 信彦(武蔵工業大学 工学部)
2006-10-4 JIMA秋季大会
県立広島大学
1-1. はじめに
• コンピュータ能力,データ保存容量の向上
• 膨大な情報からの情報検索
自然言語処理
テキストマイニング
・ テキスト分類
・ テキストクラスタリング
・自動要約、情報抽出
・ トピック検出
・ リコメンデーション
文書を単語ベクトルで表現
さまざまなヒューリスティックス、経験的に
良いとされている方法が使われている
形態素解析
うまくいく原理や問
題の性質を解析的
に明らかにしたい
2006-10-4 JIMA秋季大会
県立広島大学
1-2. はじめに
• 自然言語処理の分野では、しばしば文書を単語
ベクトルで表現して解析する
重要語
経
営
情
報
生
産
パ
ソ
コ
ン
プ
リ 工 品 増 減
ン 学 質 加 少
タ
……
楽
し
述 す
べ る
di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 )
通常、3000以上の高次元ベクトル
要素である各単語の出現頻度は相対的に低い
分析に不要な単語が多数含まれる可能性有り
多次元ベクトルの統計量は多変量解析でも扱
われるが、本質的に性質の異なる統計データ
1-3. 研究目的
2006-10-4 JIMA秋季大会
県立広島大学
自然言語データの分析
通常、3000以上の高次元ベクトル
要素である各単語の出現頻度は相対的に低い
分析に不要な単語が多数含まれる可能性有り
分析手法の考え方自体は、従来の統計学と
同類の問題を扱っているとも言える
仮説(統計モデル)があって採取される従来の
統計の問題とは、データの質が異なる
本研究の目的
自然言語データの分析について、特に文書分類に
注目し、分類精度や統計量の性質を明らかにする
2.1 文書の単語分割とキーワード抽出
2006-10-4 JIMA秋季大会
県立広島大学
文書 i : 子供の運動会でとても良い映像が撮影できた。
形態素解析
子供 / の / 運動会 / で / ともて / 良い / 映像 / が / 撮影 / でき / た / 。
実際には読み、品詞情報などが付加できる
全文書の分析結果から、名詞、動詞などの有効語を抽出
キーワードリストの構成
運動会、システム、便利、良い、役立つ、撮影、
接続、スピード、問題、改善、必要、・・・・・・
2.2 文書のベクトル表現
2006-10-4 JIMA秋季大会
県立広島大学
文書 i : 子供の運動会でとても良い映像が撮影できた。
形態素解析
子供 / の / 運動会 / で / ともて / 良い / 映像 / が / 撮影 / でき / た / 。
キーワードリストとのマッチング
運動会、システム、便利、良い、役立つ、撮影、
接続、スピード、問題、改善、必要、・・・・・・
文書のベクトル表現
2.3 文書分類(テキスト分類)問題
2006-10-4 JIMA秋季大会
県立広島大学
文書データを複数のカテゴリに振り分ける技術
カテゴリA
文書
ルール
過去の事例から
教師あり学習
カテゴリB
カテゴリC
・
・
・
・
2.3 文書分類(テキスト分類)問題
過去の事例
文書d1
カテゴリC
文書d2
カテゴリA
文書d3
カテゴリB
文書dn
新たな文書
2006-10-4 JIMA秋季大会
県立広島大学
・
・
・
・
・
文書d
カテゴリA
???
分類
分類精度は?
2.3 文書分類(テキスト分類)問題
文書ベクトル空間
2006-10-4 JIMA秋季大会
県立広島大学
グループB
グループA
グループC
3.1 統計的仮説検定の枠組みによる解析
重要語
経
営
情
報
生
産
パ
ソ
コ
ン
プ
リ 工 品 増 減
ン 学 質 加 少
タ
……
2006-10-4 JIMA秋季大会
県立広島大学
楽
し
述 す
べ る
di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 )
通常、3000以上の高次元ベクトル
分析に不要な単語が多数含まれる可能性有り
カテゴリ数2のとき、統計的仮説検定の枠組
みによって、不要語が分類パフォーマンスに
どのような影響を与えるかを調べる
3.2 統計的仮説検定の枠組みによる解析
仮定
2006-10-4 JIMA秋季大会
県立広島大学
文書ベクトルは、W次元多項分布に従うデータ
の経験分布で表されるものとする
仮説C1
p1 = (p11,p12 ,p13,p14 ,・・・・・・, p1W-1,p1W)
仮説C2
p2 = (p21,p22 ,p23,p24 ,・・・・・・, p2W-1,p2W)
判定すべき文書dが、仮説C1と仮説C2のどちらの
カテゴリから生起したものか? を判定する問題。
さらに、文書dの長さを十分長くできると仮定
3.3 統計的仮説検定の枠組みによる解析
2006-10-4 JIMA秋季大会
県立広島大学
分析に不要な単語が多数含まれる可能性有り
不要語が存在する場合を分析
仮説C1
カテゴリC1を特
徴づける単語
カテゴリC2を特
徴づける単語
分類(判定)に意
味をなさない単語
p1 = (p11,・・・,p1p ,p1p+1,・・・,p1p+q, p1p+q+1,・・・,p1W)
p2 = (p21,・・・,p2p ,p2p+1,・・・,p2p+q, p2p+q+1,・・・,p2W)
仮説C2
p個
有効語
q個
W-p-q個
不要語
3.4 統計的仮説検定の枠組みによる解析
2006-10-4 JIMA秋季大会
県立広島大学
有効語の出現確率
この確率が小さくなるほど、
分類のパフォーマンスは低下
することが予想できる
どの程度か?
統計的仮説検定の枠組みで評価してみる
2つの分布の判別のし易さには、ダイ
バージェンスが深い意味を持つ
3.5 統計的仮説検定の枠組みによる解析
ネイマン-ピアソンの定理より
判定領域
2006-10-4 JIMA秋季大会
県立広島大学
3.6 統計的仮説検定の枠組みによる解析
不要語を含んだダイバージェンス
不要語を含まない理想状態のダイバー
ジェンス
2006-10-4 JIMA秋季大会
県立広島大学
現実的設定
理想状態
3.7 統計的仮説検定の枠組みによる解析
2006-10-4 JIMA秋季大会
県立広島大学
1文書の単語出現数
3.8 統計的仮説検定の枠組みによる解析
2006-10-4 JIMA秋季大会
県立広島大学
3.9 統計的仮説検定の枠組みによる解析
2006-10-4 JIMA秋季大会
県立広島大学
考察
不要語なしの理想状態
不要語ありの場合
S の分だけ誤り率が劣化
判別したい文書長が十分長く、出現単語数を大き
く取っても、不要語が同じオーダーで増えていくな
らば、判別誤り率は改善しない。
2006-10-4 JIMA秋季大会
県立広島大学
4.1 分類に使われる類似度の分析
重要語
経
営
情
報
生
産
パ
ソ
コ
ン
プ
リ 工 品 増 減
ン 学 質 加 少
タ
……
楽
し
述 す
べ る
di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 )
通常、3000以上の高次元ベクトル
要素である各単語の出現頻度は相対的に低い
相対的に頻度の低い統計量をたくさん集めて
くると、意味が出てくるのか?
4.2 分類に使われる類似度の分析
文書ベクトル空間
2006-10-4 JIMA秋季大会
県立広島大学
グループB
グループA
多次元空間の距離はどのよ
うな振る舞いをするのか?
グループC
2006-10-4 JIMA秋季大会
県立広島大学
4.3 分類に使われる類似度の分析
重要語
経
営
情
報
生
産
パ
ソ
コ
ン
プ
リ 工 品 増
減
ン 学
質 加 少
タ
……
楽
し
述 す
べ る
dt = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 )
距離
du = ( 0 , 0 , 1 , 0 , 0, 2 , 0, 1, 0 , ・・・・・・・, 0 , 0, 1 )
一つ一つの単語の出現頻度は少ない状況
であるが、単語はたくさんある
出現頻度の少ない要素でも、次元数(単語数)を増
やしていくと、うまく距離が測れるのか?
4.4 分類に使われる類似度の分析
ベクトルの余弦
KL-情報量
2006-10-4 JIMA秋季大会
県立広島大学
4.5 分類に使われる類似度の分析
2006-10-4 JIMA秋季大会
県立広島大学
単語の出現頻
度(統計量)に
基づく距離
真の確率分布
を知った場合
の距離
4.6 分類に使われる類似度の分析
簡単のため、3項分布の一般形で議論
確率同じ
r1
文書dt
/p
r2
/q
確率同じ
2006-10-4 JIMA秋季大会
県立広島大学
分類(判定)に意味
をなさない単語
p1 = (p11,・・・,p1p ,p1p+1,・・・,p1p+q, p1p+q+1,・・・,p1W)
確率同じ
s1
/p
s2
確率同じ
q
/
確率同じ
p2 = (p21,・・・,p2p ,p2p+1,・・・,p2p+q, p2p+q+1,・・・,p2W)
文書du
p個
q個
W-p-q個
4.7 分類に使われる類似度の分析
2006-10-4 JIMA秋季大会
県立広島大学
4.8 分類に使われる類似度の分析
2006-10-4 JIMA秋季大会
県立広島大学
【定理3】
のもとで、W→∞ と
すると、以下の概収束がなりたつ。
各単語の出現頻度は少なくても、そのような単語をたく
さん集めてくることが出来れば、ほぼ正しい距離の測
定が可能である。
5. 考 察
不要語の影響を定量的
に評価できた。不要語は
判別性能を劣化させる。
経験的に性能が良いとさ
れているtf-idf measureの
ような不要語除去の仕組
みが必要
2006-10-4 JIMA秋季大会
県立広島大学
頻度の少ない単語ベクトル間
の距離を測っても、単語数が
十分大きい高次元ベクトルで
あれば、うまく距離が測れる。
テキストマイニングが理論
上可能であることを裏付
ける結果
6. まとめ
2006-10-4 JIMA秋季大会
県立広島大学
自然言語データの分析
通常、3000以上の高次元ベクトル
要素である各単語の出現頻度は相対的に低い
分析に不要な単語が多数含まれる可能性有り
① 仮説検定の枠組みにより、不要語の影響を
分析した。
② 多次元、かつ相対的に頻度の小さい要素を持つ
ベクトル同士の類似度について分析した。
その結果
① 不要語による漸近的な誤り率の劣化の程度を定量的に
評価できた。
② マイニング技術にみられる情報量の少ないデータを多数
集めてくる問題の一モデルを提示し、現実的に使われる
距離構造の理論的妥当性について明らかにした。