スライド

分析結果
村田 真樹
2014/8/5
1
データの分析
• 対象語の品詞
品詞
動詞
名詞
形容詞
件数
29件
17件
4件
• 一般的解き方
– 動詞、形容詞
• 格に取る名詞
– 名詞
• 共起語
2
解き方による分析
解き方(重複あり)
格に取る名詞(用言のとき)
共起語(名詞のとき)
言い換え
文パターン
推論
表現自身
格関係にある動詞(名詞のとき)
解き方未判定 難しい?
件数
21個
15個
7個
5個
2個
2個
1個
7個
3
誤り分析
• 格に取る名詞(用言のとき)
– 3件目
– 対象文:「悲鳴をあげながら」
– 類似事例「声」が多数学習データにあり、解けな
い理由がわからない。
– 5件目
– 対象文:「水をおあたえください」
– 今の素性では「水」が使えない。
4
分析法:意味ソートによる分析
「を」の前の名詞で意味ソート単語を意味の順に並べて考察。
3桁目まで利用すれば類似事例あり。
11個目、具体的事例「発音を教える」
(活動) 13050060103:勉強(5541-0-0-1) 13060050101:知識(5541-0-0-2)
13061070101:考え(5541-0-0-2) 13064100301:か(5541-0-0-1)
13070110601:要領(5541-0-0-1) 13071101003:こと(5541-0-0-2)
13074020103:か(5541-0-0-1) 13074200101:数学(5541-0-0-1)
13074340304:技術(5541-0-0-1) 13081010101:方法(5541-0-0-1)
13101010202:こと(5541-0-0-2) 13112070101:発音(5541-0-0-2*)
13131010101:話(5541-0-0-2) 13131010102:話(5541-0-0-2)
13150110204:棒読み(5541-0-0-1) 13210030102:か(5541-0-0-1)
13310090102:か(5541-0-0-1) 13421110103:技術(5541-0-0-1)
13520060101:訪れ(5541-0-0-2) 13730120301:勉強(5541-0-0-1)
13761130304:勉強(5541-0-0-1) 13840020102:和裁(5541-0-0-1)
5
13850010101:技術(5541-0-0-1)
誤り分析
• 共起語(名詞のとき)
– 14件目
– 対象文:「事件で、鶴見署は二十一日現場で…」
– 今の素性では「事件」「署」が使えない。
– 学習データに共起語が重なる事例がなさそう。
• 言い換え
– 7件目
– 対象文:「自己防衛の意味」
– 「意味」を「意図」と言い換えが可能であることができれ
6
ば該当する意味と判定できるのだが
誤り分析
• 文パターン
– 2件目
– 対象文:「顔を見せてあげる」
– 直前の表現「て」により推測できるはずだが、学習デー
タに類似事例がない。
• 推論
– 41件目
– 対象文:開いたときに「請求書ご案内」が上に来るよう
– 推論により開いたものが「封筒」とわかれば、その名詞
から判定できそうだが。
7
誤り分析
• 表現自身
– 45件目
– 対象文:「診て貰えない」
– 漢字「診る」自体で判定可能だが、学習データに類似
事例がない。
• 格関係にある動詞(名詞のとき)
– 1件目
– 対象文:「相手をすべて倒した」
– 動詞「倒す」から判定できそうだが、今の素性では使っ
ていない。また学習データに類似事例もない。
8
誤り分析
• 解き方未判定 難しい?
– 35件目
– 対象文:「しかも、その場合、講習後に大変難しい筆記試験
があり、」
– 40333-0-0-1-0 物事の、その時に応じて分けて考えられる
状態・事情。「―によっては」「万一の―」「問題を―分けして
扱う」
– 40333-0-0-2-0 とき。おり。「雨が降った―(には)中止する」
▽概して、時(4)と同様に使う。法令文で、「場合」と「とき」
とを重ねて用いるときは、前提とする条件の大きい方に「場
合」を使うのが慣用。
9
誤り原因と対処法
• 簡単な原因
– 簡単な素性の不足
– 学習データの不足
– 少数の学習データだと、どういう場合はどういう素
性を重視すべきかを教えるべき
• 難しい原因
– 新しい技術の構築へ
• 言い換えの利用
• 推論
10
今後
• 誤り分析を精緻化する
• データや素性を増やした場合で同様のことを
する
11
付録:機械学習による誤り分析
正解の分類を素性に追加してOXをSVMで判定。
2998
正解率 = 94.00
●分類結果
再現率 適合率
O
97.30 94.74
X
84.62 91.67
総数
94.00 94.00
総数 O
37
36
13
2
50
38
X 解なし
1 0
11 0
12 0
2998-0-0-2の場合にほとんど誤るため、正解の分類を素性に追加す
ればOXをほぼ推定できる。高性能に推定できたものはこれくらい。
12
状況分析程度には使える。
付録:統計(検定)による誤り分析
正解の分類を素性に追加。単独素性、素性の組み合わせを作成し、
それらがあるとき、0.5の確率に比べて優位に大きい確率でXになるも
のの検出。
有意確率 Xの場合の頻度 合計頻度 素性
0.062500
6
7
117-0-0-3-0
0.035156
7
8
755-0-0-1-0
0.062500
4
4
cor=40333-0-0-2===e5=連体詞
どういう場合に誤りになっていることが多いかがわかる。
13