分析結果 村田 真樹 2014/8/5 1 データの分析 • 対象語の品詞 品詞 動詞 名詞 形容詞 件数 29件 17件 4件 • 一般的解き方 – 動詞、形容詞 • 格に取る名詞 – 名詞 • 共起語 2 解き方による分析 解き方(重複あり) 格に取る名詞(用言のとき) 共起語(名詞のとき) 言い換え 文パターン 推論 表現自身 格関係にある動詞(名詞のとき) 解き方未判定 難しい? 件数 21個 15個 7個 5個 2個 2個 1個 7個 3 誤り分析 • 格に取る名詞(用言のとき) – 3件目 – 対象文:「悲鳴をあげながら」 – 類似事例「声」が多数学習データにあり、解けな い理由がわからない。 – 5件目 – 対象文:「水をおあたえください」 – 今の素性では「水」が使えない。 4 分析法:意味ソートによる分析 「を」の前の名詞で意味ソート単語を意味の順に並べて考察。 3桁目まで利用すれば類似事例あり。 11個目、具体的事例「発音を教える」 (活動) 13050060103:勉強(5541-0-0-1) 13060050101:知識(5541-0-0-2) 13061070101:考え(5541-0-0-2) 13064100301:か(5541-0-0-1) 13070110601:要領(5541-0-0-1) 13071101003:こと(5541-0-0-2) 13074020103:か(5541-0-0-1) 13074200101:数学(5541-0-0-1) 13074340304:技術(5541-0-0-1) 13081010101:方法(5541-0-0-1) 13101010202:こと(5541-0-0-2) 13112070101:発音(5541-0-0-2*) 13131010101:話(5541-0-0-2) 13131010102:話(5541-0-0-2) 13150110204:棒読み(5541-0-0-1) 13210030102:か(5541-0-0-1) 13310090102:か(5541-0-0-1) 13421110103:技術(5541-0-0-1) 13520060101:訪れ(5541-0-0-2) 13730120301:勉強(5541-0-0-1) 13761130304:勉強(5541-0-0-1) 13840020102:和裁(5541-0-0-1) 5 13850010101:技術(5541-0-0-1) 誤り分析 • 共起語(名詞のとき) – 14件目 – 対象文:「事件で、鶴見署は二十一日現場で…」 – 今の素性では「事件」「署」が使えない。 – 学習データに共起語が重なる事例がなさそう。 • 言い換え – 7件目 – 対象文:「自己防衛の意味」 – 「意味」を「意図」と言い換えが可能であることができれ 6 ば該当する意味と判定できるのだが 誤り分析 • 文パターン – 2件目 – 対象文:「顔を見せてあげる」 – 直前の表現「て」により推測できるはずだが、学習デー タに類似事例がない。 • 推論 – 41件目 – 対象文:開いたときに「請求書ご案内」が上に来るよう – 推論により開いたものが「封筒」とわかれば、その名詞 から判定できそうだが。 7 誤り分析 • 表現自身 – 45件目 – 対象文:「診て貰えない」 – 漢字「診る」自体で判定可能だが、学習データに類似 事例がない。 • 格関係にある動詞(名詞のとき) – 1件目 – 対象文:「相手をすべて倒した」 – 動詞「倒す」から判定できそうだが、今の素性では使っ ていない。また学習データに類似事例もない。 8 誤り分析 • 解き方未判定 難しい? – 35件目 – 対象文:「しかも、その場合、講習後に大変難しい筆記試験 があり、」 – 40333-0-0-1-0 物事の、その時に応じて分けて考えられる 状態・事情。「―によっては」「万一の―」「問題を―分けして 扱う」 – 40333-0-0-2-0 とき。おり。「雨が降った―(には)中止する」 ▽概して、時(4)と同様に使う。法令文で、「場合」と「とき」 とを重ねて用いるときは、前提とする条件の大きい方に「場 合」を使うのが慣用。 9 誤り原因と対処法 • 簡単な原因 – 簡単な素性の不足 – 学習データの不足 – 少数の学習データだと、どういう場合はどういう素 性を重視すべきかを教えるべき • 難しい原因 – 新しい技術の構築へ • 言い換えの利用 • 推論 10 今後 • 誤り分析を精緻化する • データや素性を増やした場合で同様のことを する 11 付録:機械学習による誤り分析 正解の分類を素性に追加してOXをSVMで判定。 2998 正解率 = 94.00 ●分類結果 再現率 適合率 O 97.30 94.74 X 84.62 91.67 総数 94.00 94.00 総数 O 37 36 13 2 50 38 X 解なし 1 0 11 0 12 0 2998-0-0-2の場合にほとんど誤るため、正解の分類を素性に追加す ればOXをほぼ推定できる。高性能に推定できたものはこれくらい。 12 状況分析程度には使える。 付録:統計(検定)による誤り分析 正解の分類を素性に追加。単独素性、素性の組み合わせを作成し、 それらがあるとき、0.5の確率に比べて優位に大きい確率でXになるも のの検出。 有意確率 Xの場合の頻度 合計頻度 素性 0.062500 6 7 117-0-0-3-0 0.035156 7 8 755-0-0-1-0 0.062500 4 4 cor=40333-0-0-2===e5=連体詞 どういう場合に誤りになっていることが多いかがわかる。 13
© Copyright 2024 ExpyDoc