Document

画素密度検出エージェントを用いた
文字列の検出と文字切り出し
大島商船高専 情報工学科 岡村 健史郎
山口大学工学部 ユジン・クルズ
山口大学工学部 佐長康久
山口大学工学部 浜本義彦
はじめに
文
字
切
り
出
し
文
字
認
識
「島」
手書き文章処理システム
文字切り出し
画素密度による文字切り出し方式
画
像
入
力
前
処
理
部
文
字
位
置
検
出
部
文
字
切
り
出
し
部
文
結
字
果
列
出
抽
力
出
部
文
字
切
リ
出
し
修
正
部
結
果
出
力
前処理部
連
結
成
分
ラベリング処理 マージ処理
細線化処理
文字位置検出部
画素密度・・ 画像とガウスフィルタの畳込みから得る

1
G ( x, y,  ) 
e
2
2π
(a) 原画像
x2  y2
(b) 
2 2

: 観測スケール
(c) 
文字位置検出部
検
出
エ
ー
ジ
ェ
ン
ト
検出点
1.矩形内に検出点は一つ以下
2.検出点同士は近接しない
(3 内に他の検出点が存在しない)
評価関数
のとき
文字位置検出部 (提案)
連結成分のサイズによるしきい値
文字切り出し部
前処理部の結果
文字切り出し結果
文字列抽出部
接続線・・ 各文字の前・後にくる文字同士の接続線
上接続線対
右接続線対
左接続線対
下接続線対
文字列抽出部
長さが最小となる
• 上接続線対
• 下接続線対
• 左接続線対
• 右接続線対
文字列抽出部
“町”の場合
“本”
“市”
合計
縦
2
1
3
横
0
2
2
文字切り出しの修正部
h/4 切
断
位
置
h
h/4
統合処理
切断処理
計算機シミュレーション
実験データ
縦書きデータ : 300枚
240X 560 ピクセル,256 階調の白黒濃淡画像
横書きデータ : 300枚
 様々なサイズ,256 階調の白黒濃淡画像
実験
 文字列抽出
 文字切り出し
(切り出し対象:町域部の文字のみ)
番
地
部
町
域
部
文字列抽出の実験結果
文字列の抽出率
対象データ
縦書きデータ
横書きデータ
文字列抽出率
96.3%
96.0%
文字切り出しの実験結果
町域部の文字切り出し率
対象データ
従来手法
(A)
縦書きデータ
83.2%
87.3%
88.4%
89.4%
横書きデータ
30.9%
81.0%
81.1%
85.7%
(A)+(B) (A)+(B)+(C)
(A) 観測スケールの可能な範囲の設定
(B) 文字統合による修正
(C) 文字切断による修正
実験結果例
文字切り出しの成功例
文字切り出しの失敗例
まとめ
 文字列抽出に成功
 文字切り出し率の向上
今後の課題
 文字列抽出部と文字切り出し部の協調動作
 文字のストロークの各角度に基づく文字切断処理
実験結果例
文字列抽出の成功例
文字列抽出の失敗例
実験結果例
従
来
手
法
提
案
手
法
従来手法
提案手法
実験結果例
町
域
部
番
地
部
町域部
データ
データ
データ
実験結果
実験結果
番地部