Optical word recognition with CNN features and WFST decoding 16 飾り文字でも読み取れる ~深層学習と系列デコーディングによる文字列認識~ どんな研究 どこが凄い スマートフォンで撮影した街中の風 景など、実環境の情景中に存在する 文字を読み取ることは、その有用性 が期待されながら、今なお困難な課 題です。本研究は、デザインされた 飾り文字も含めて、情景中に存在す る様々な書体の文字列を正確に読み 取ることを目指しています。 目指す未来 同じ文字でも書体や撮影条件などに より画像には大きな違いが生まれ、 認識が困難になります。これに対し、 深層学習と、音声認識で有効性が示 されている系列の認識手法である WFST (重み付き有限状態トランス デューサ) とを組み合わせる方法を 提案し高い認識精度を実現しました。 文字を読み取ることで、コンピュー タが効率的に情報を取得することや、 ユーザにとって必要な情報を的確に 提示することが可能になります。効 率的な画像探索や駅・店頭・市街地 での歩行者用ナビゲーション、車の 自動運転、画面の自動翻訳など、 様々な応用の可能性が広がります。 文字列認識の流れ ① ずらし窓を用いて 各部分の「CNNスコア」 を計算 ② 系列として認識 you 入力画像 スコア行列 認識結果(単語) 文字列をWFSTとして表現 文字認識のCNNモデル CNN: Convolutional Neural Network WFST: Weighted Finite‐State Transducer WFSTによる系列デコーディング 認識結果 実験結果 辞書WFST 画像データセットを用いた単語認識精度の評価 Dataset ICDAR2003 (50) ICDAR2003 (860) SVT‐ WORD (50) Jaderberg et al. [ECCV 2014] 96.2 91.5 86.1 Proposed 96.9 91.8 93.4 (辞書の単語数) 編集WFST トークンWFST CNNラベル とスコア i ∶ 0.6 1 : 0.02 y: 0.8 o: 0.6 0: 0.2 u: 0.5 v: 0.1 Method ICDAR:Intl. Conf. on Document Analysis and Recognition Dataset (画像860枚) SVT-WORD:Street View Text Dataset (画像647枚) 【関連文献】 [1] X. Liu, T. Kawanishi, X. Wu, K. Kashino, “Scene text recognition with high performance CNN classifier and efficient word inference,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2016. 【連絡先】 メディア情報研究部 メディア認識研究グループ 劉 新豪 (Xinhao LIU) E-mail:liu.xinhao(at)lab.ntt.co.jp Copyright (C) 2016 NTT Communication Science Laboratories
© Copyright 2024 ExpyDoc