飾り文字でも読み取れる you

Optical word recognition with CNN features and WFST decoding
16
飾り文字でも読み取れる
~深層学習と系列デコーディングによる文字列認識~
どんな研究
どこが凄い
スマートフォンで撮影した街中の風
景など、実環境の情景中に存在する
文字を読み取ることは、その有用性
が期待されながら、今なお困難な課
題です。本研究は、デザインされた
飾り文字も含めて、情景中に存在す
る様々な書体の文字列を正確に読み
取ることを目指しています。
目指す未来
同じ文字でも書体や撮影条件などに
より画像には大きな違いが生まれ、
認識が困難になります。これに対し、
深層学習と、音声認識で有効性が示
されている系列の認識手法である
WFST (重み付き有限状態トランス
デューサ) とを組み合わせる方法を
提案し高い認識精度を実現しました。
文字を読み取ることで、コンピュー
タが効率的に情報を取得することや、
ユーザにとって必要な情報を的確に
提示することが可能になります。効
率的な画像探索や駅・店頭・市街地
での歩行者用ナビゲーション、車の
自動運転、画面の自動翻訳など、
様々な応用の可能性が広がります。
文字列認識の流れ
① ずらし窓を用いて
各部分の「CNNスコア」
を計算
② 系列として認識
you
入力画像
スコア行列
認識結果(単語)
文字列をWFSTとして表現
文字認識のCNNモデル
CNN: Convolutional Neural Network
WFST: Weighted Finite‐State Transducer
WFSTによる系列デコーディング
認識結果
実験結果
辞書WFST
画像データセットを用いた単語認識精度の評価
Dataset
ICDAR2003
(50)
ICDAR2003
(860)
SVT‐
WORD
(50)
Jaderberg et al.
[ECCV 2014]
96.2
91.5
86.1
Proposed
96.9
91.8
93.4
(辞書の単語数)
編集WFST
トークンWFST
CNNラベル
とスコア
i ∶ 0.6
1 : 0.02
y: 0.8
o: 0.6
0: 0.2
u: 0.5
v: 0.1
Method
ICDAR:Intl. Conf. on Document Analysis and Recognition Dataset (画像860枚)
SVT-WORD:Street View Text Dataset (画像647枚)
【関連文献】
[1] X. Liu, T. Kawanishi, X. Wu, K. Kashino, “Scene text recognition with high performance CNN classifier and efficient word inference,” in
Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2016.
【連絡先】
メディア情報研究部 メディア認識研究グループ
劉 新豪 (Xinhao LIU)
E-mail:liu.xinhao(at)lab.ntt.co.jp
Copyright (C) 2016 NTT Communication Science Laboratories