2006-10-4 JIMA秋季大会 県立広島大学 文書分類モデルの統計的性質 に関する一考察 後藤 正幸(武蔵工業大学 環境情報学部 ) 平澤 茂一(早稲田大学 理工学部) 俵 信彦(武蔵工業大学 工学部) 2006-10-4 JIMA秋季大会 県立広島大学 1-1. はじめに • コンピュータ能力,データ保存容量の向上 • 膨大な情報からの情報検索 自然言語処理 テキストマイニング ・ テキスト分類 ・ テキストクラスタリング ・自動要約、情報抽出 ・ トピック検出 ・ リコメンデーション 文書を単語ベクトルで表現 さまざまなヒューリスティックス、経験的に 良いとされている方法が使われている 形態素解析 うまくいく原理や問 題の性質を解析的 に明らかにしたい 2006-10-4 JIMA秋季大会 県立広島大学 1-2. はじめに • 自然言語処理の分野では、しばしば文書を単語 ベクトルで表現して解析する 重要語 経 営 情 報 生 産 パ ソ コ ン プ リ 工 品 増 減 ン 学 質 加 少 タ …… 楽 し 述 す べ る di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 多次元ベクトルの統計量は多変量解析でも扱 われるが、本質的に性質の異なる統計データ 1-3. 研究目的 2006-10-4 JIMA秋季大会 県立広島大学 自然言語データの分析 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 分析手法の考え方自体は、従来の統計学と 同類の問題を扱っているとも言える 仮説(統計モデル)があって採取される従来の 統計の問題とは、データの質が異なる 本研究の目的 自然言語データの分析について、特に文書分類に 注目し、分類精度や統計量の性質を明らかにする 2.1 文書の単語分割とキーワード抽出 2006-10-4 JIMA秋季大会 県立広島大学 文書 i : 子供の運動会でとても良い映像が撮影できた。 形態素解析 子供 / の / 運動会 / で / ともて / 良い / 映像 / が / 撮影 / でき / た / 。 実際には読み、品詞情報などが付加できる 全文書の分析結果から、名詞、動詞などの有効語を抽出 キーワードリストの構成 運動会、システム、便利、良い、役立つ、撮影、 接続、スピード、問題、改善、必要、・・・・・・ 2.2 文書のベクトル表現 2006-10-4 JIMA秋季大会 県立広島大学 文書 i : 子供の運動会でとても良い映像が撮影できた。 形態素解析 子供 / の / 運動会 / で / ともて / 良い / 映像 / が / 撮影 / でき / た / 。 キーワードリストとのマッチング 運動会、システム、便利、良い、役立つ、撮影、 接続、スピード、問題、改善、必要、・・・・・・ 文書のベクトル表現 2.3 文書分類(テキスト分類)問題 2006-10-4 JIMA秋季大会 県立広島大学 文書データを複数のカテゴリに振り分ける技術 カテゴリA 文書 ルール 過去の事例から 教師あり学習 カテゴリB カテゴリC ・ ・ ・ ・ 2.3 文書分類(テキスト分類)問題 過去の事例 文書d1 カテゴリC 文書d2 カテゴリA 文書d3 カテゴリB 文書dn 新たな文書 2006-10-4 JIMA秋季大会 県立広島大学 ・ ・ ・ ・ ・ 文書d カテゴリA ??? 分類 分類精度は? 2.3 文書分類(テキスト分類)問題 文書ベクトル空間 2006-10-4 JIMA秋季大会 県立広島大学 グループB グループA グループC 3.1 統計的仮説検定の枠組みによる解析 重要語 経 営 情 報 生 産 パ ソ コ ン プ リ 工 品 増 減 ン 学 質 加 少 タ …… 2006-10-4 JIMA秋季大会 県立広島大学 楽 し 述 す べ る di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 通常、3000以上の高次元ベクトル 分析に不要な単語が多数含まれる可能性有り カテゴリ数2のとき、統計的仮説検定の枠組 みによって、不要語が分類パフォーマンスに どのような影響を与えるかを調べる 3.2 統計的仮説検定の枠組みによる解析 仮定 2006-10-4 JIMA秋季大会 県立広島大学 文書ベクトルは、W次元多項分布に従うデータ の経験分布で表されるものとする 仮説C1 p1 = (p11,p12 ,p13,p14 ,・・・・・・, p1W-1,p1W) 仮説C2 p2 = (p21,p22 ,p23,p24 ,・・・・・・, p2W-1,p2W) 判定すべき文書dが、仮説C1と仮説C2のどちらの カテゴリから生起したものか? を判定する問題。 さらに、文書dの長さを十分長くできると仮定 3.3 統計的仮説検定の枠組みによる解析 2006-10-4 JIMA秋季大会 県立広島大学 分析に不要な単語が多数含まれる可能性有り 不要語が存在する場合を分析 仮説C1 カテゴリC1を特 徴づける単語 カテゴリC2を特 徴づける単語 分類(判定)に意 味をなさない単語 p1 = (p11,・・・,p1p ,p1p+1,・・・,p1p+q, p1p+q+1,・・・,p1W) p2 = (p21,・・・,p2p ,p2p+1,・・・,p2p+q, p2p+q+1,・・・,p2W) 仮説C2 p個 有効語 q個 W-p-q個 不要語 3.4 統計的仮説検定の枠組みによる解析 2006-10-4 JIMA秋季大会 県立広島大学 有効語の出現確率 この確率が小さくなるほど、 分類のパフォーマンスは低下 することが予想できる どの程度か? 統計的仮説検定の枠組みで評価してみる 2つの分布の判別のし易さには、ダイ バージェンスが深い意味を持つ 3.5 統計的仮説検定の枠組みによる解析 ネイマン-ピアソンの定理より 判定領域 2006-10-4 JIMA秋季大会 県立広島大学 3.6 統計的仮説検定の枠組みによる解析 不要語を含んだダイバージェンス 不要語を含まない理想状態のダイバー ジェンス 2006-10-4 JIMA秋季大会 県立広島大学 現実的設定 理想状態 3.7 統計的仮説検定の枠組みによる解析 2006-10-4 JIMA秋季大会 県立広島大学 1文書の単語出現数 3.8 統計的仮説検定の枠組みによる解析 2006-10-4 JIMA秋季大会 県立広島大学 3.9 統計的仮説検定の枠組みによる解析 2006-10-4 JIMA秋季大会 県立広島大学 考察 不要語なしの理想状態 不要語ありの場合 S の分だけ誤り率が劣化 判別したい文書長が十分長く、出現単語数を大き く取っても、不要語が同じオーダーで増えていくな らば、判別誤り率は改善しない。 2006-10-4 JIMA秋季大会 県立広島大学 4.1 分類に使われる類似度の分析 重要語 経 営 情 報 生 産 パ ソ コ ン プ リ 工 品 増 減 ン 学 質 加 少 タ …… 楽 し 述 す べ る di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 相対的に頻度の低い統計量をたくさん集めて くると、意味が出てくるのか? 4.2 分類に使われる類似度の分析 文書ベクトル空間 2006-10-4 JIMA秋季大会 県立広島大学 グループB グループA 多次元空間の距離はどのよ うな振る舞いをするのか? グループC 2006-10-4 JIMA秋季大会 県立広島大学 4.3 分類に使われる類似度の分析 重要語 経 営 情 報 生 産 パ ソ コ ン プ リ 工 品 増 減 ン 学 質 加 少 タ …… 楽 し 述 す べ る dt = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 距離 du = ( 0 , 0 , 1 , 0 , 0, 2 , 0, 1, 0 , ・・・・・・・, 0 , 0, 1 ) 一つ一つの単語の出現頻度は少ない状況 であるが、単語はたくさんある 出現頻度の少ない要素でも、次元数(単語数)を増 やしていくと、うまく距離が測れるのか? 4.4 分類に使われる類似度の分析 ベクトルの余弦 KL-情報量 2006-10-4 JIMA秋季大会 県立広島大学 4.5 分類に使われる類似度の分析 2006-10-4 JIMA秋季大会 県立広島大学 単語の出現頻 度(統計量)に 基づく距離 真の確率分布 を知った場合 の距離 4.6 分類に使われる類似度の分析 簡単のため、3項分布の一般形で議論 確率同じ r1 文書dt /p r2 /q 確率同じ 2006-10-4 JIMA秋季大会 県立広島大学 分類(判定)に意味 をなさない単語 p1 = (p11,・・・,p1p ,p1p+1,・・・,p1p+q, p1p+q+1,・・・,p1W) 確率同じ s1 /p s2 確率同じ q / 確率同じ p2 = (p21,・・・,p2p ,p2p+1,・・・,p2p+q, p2p+q+1,・・・,p2W) 文書du p個 q個 W-p-q個 4.7 分類に使われる類似度の分析 2006-10-4 JIMA秋季大会 県立広島大学 4.8 分類に使われる類似度の分析 2006-10-4 JIMA秋季大会 県立広島大学 【定理3】 のもとで、W→∞ と すると、以下の概収束がなりたつ。 各単語の出現頻度は少なくても、そのような単語をたく さん集めてくることが出来れば、ほぼ正しい距離の測 定が可能である。 5. 考 察 不要語の影響を定量的 に評価できた。不要語は 判別性能を劣化させる。 経験的に性能が良いとさ れているtf-idf measureの ような不要語除去の仕組 みが必要 2006-10-4 JIMA秋季大会 県立広島大学 頻度の少ない単語ベクトル間 の距離を測っても、単語数が 十分大きい高次元ベクトルで あれば、うまく距離が測れる。 テキストマイニングが理論 上可能であることを裏付 ける結果 6. まとめ 2006-10-4 JIMA秋季大会 県立広島大学 自然言語データの分析 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り ① 仮説検定の枠組みにより、不要語の影響を 分析した。 ② 多次元、かつ相対的に頻度の小さい要素を持つ ベクトル同士の類似度について分析した。 その結果 ① 不要語による漸近的な誤り率の劣化の程度を定量的に 評価できた。 ② マイニング技術にみられる情報量の少ないデータを多数 集めてくる問題の一モデルを提示し、現実的に使われる 距離構造の理論的妥当性について明らかにした。
© Copyright 2024 ExpyDoc