3-Q-10 複数の言語情報を用いたCRFによる音声認識誤りの検出 松本 智彦, 佐古 淳, 滝口 哲也, 有木 康雄 (神戸大) 研究背景・目的 意味スコアによる誤り検出 周辺の内容語との類似度の平均: SC(w) 音声認識結果を用いた処理(音声検索など) ⇒音声認識誤りが性能に悪影響を与える 誤り訂正へ 入力音声 民主党 は 早急 に 解散 する よ う ・・・ 音声認識結果 民主党 は 野球 に 解散 する よ う ・・・ 誤り検出 正 正 誤 正 正 正 誤り傾向を示す言語情報 正 ・・・ 正解部分,誤り部分で出現しやすい特徴を学習する 文脈窓:N単語 wi 犯罪 w 裁判 大根 弁護士 sim(w, wi ) LSA:単語共起を用いた類似度 例 不自然なn-gram :「と-いう-ます」「し-き-まし」 不自然な接続 :「未然形-名詞(言わ-年)」 音素数の多い単語は正解の可能性が高い 1 SC(w) sim(w, wi ) N wi SC(w)を窓内のSC(wi)の平均で正規化:SS(w) 1 SCavg ( w) SC(wi ) N wi 問題点 学習には音声認識結果と対応する正解文書が必要 ⇒出現頻度の低いn-gramは適切に学習することが困難 SS(w) SC(w) SCavg (w) 問題点 機能語のような頻出単語に対しては意味をなさない CRFによる誤り検出 表層単語 所望 の 基本 周波 で おば ラッ パー 信頼度 0.7 0.2 0.8 0.2 0.0 0.1 0.1 品詞 名詞 助詞 名詞 名詞 助詞 名詞 名詞 ・・・ ・・ ・・ ・・ ・・ ・・ ・・ ・・・ ・ ・ ・ ・ ・ ・ SS 0 * 0 0.05 * -0.1 -0.1 idf 9 * 3 6 * 6 8 素性 正解ラベル 正 正 正 正 正 誤 誤 ある特徴とラベルのペアが存在するかしないか 各素性の重みを学習 重み □(信頼度0=“0.1”,”誤”) ⇒ 0.315 □(表層-1=“基本” && 表層0=“周波” ,”正”) ⇒ 0.119 □(SS0=“-0.1” && idf0=“8”,”誤”) ⇒ 0.359 意味スコアと単語重みの組み合わ せ ・・・ 内容語として動詞、形容詞、名詞のみに意味スコアを与える ⇒内容語の中にも「こと」「する」のような頻出単語が含まれる ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 単語重みidfの利用 全文書数 idfi log 単語iの出現する文書数 idfが大きな単語 ⇒意味スコアの効果が大きい 実験結果 実験条件 講演数 発話数 単語数 語彙数 内容語数 機能語数 誤り率 無罪 学習 150 52,692 484,405 10,418 187,154 297,251 23.6% 評価 10 2,667 22,522 2,348 8,782 13,740 25.8% 用いた素性 音声認識スコア:信頼度 言語情報:n-gram、読み、音素数、など 意味情報:意味スコア+単語重み 評価値:誤り検出の適合率、再現率、F値で比較 誤り検出性能 素性 全単語 内容語 機能語 CM 言語 意味 idf 適合率再現率 F値 適合率再現率 F値 適合率再現率 ○ × × × 0.661 0.507 0.574 0.650 0.459 0.538 0.667 0.531 × ○ × × 0.726 0.571 0.640 0.682 0.546 0.607 0.750 0.585 0.69 0.22 0.33 × × ○ ○ 0.694 0.076 0.138 4 1 6 ○ ○ × × 0.736 0.679 0.706 0.701 0.671 0.686 0.754 0.683 ○ ○ ○ × 0.754 0.684 0.717 0.745 0.690 0.717 0.758 0.680 ○ ○ ○ ○ 0.753 0.687 0.718 0.748 0.700 0.723 0.756 0.680 改善例 周辺に「接尾」「活用」「語彙」「助詞」 ⇒「丹後(単語)」「イチゴ(一語)」に誤りのラベル 周辺に「音楽」「歌っ」「弾い」 ⇒「ギター」に正解のラベル 考察 意味スコアを加えることで誤り検出性能の改善が見られた 意味スコアを加えたことによる改善率は小さい 周辺に頻出単語や認識誤りが多いと意味スコアの性能が落ち る 今後の予定 認識誤りに頑健な意味スコア 他に誤り検出に有効な素性がないか検討 誤り検出から誤り訂正へ F値 0.592 0.657 0.717 0.717 0.716
© Copyright 2024 ExpyDoc