複数の削ペク トルを用いたニューラルネッ ト による課き数字認識に関する

│
│
複数 の特徴 ベク トルを用いたニ ュニラルネ ッ ト
による手書 き数字認識に関する研究
加藤
誠
巳
上智大学 理 工学部
電 気 ・電 子 工 学 科 教 授
1:ま えがき
階層型 ニ ューラルネ ッ トをパ ター ン認識問題へ適用 した例 は多数見受け られ、その うち特 に文
字認識、音声認識への期待 は益 々高 まりつつある。 しか し、 これまでの報告 の多 くは、比較的単
純 な特徴 ベ ク トルを用 い、単一のニ ューラルネ ッ トで学習及 び認識を行 い、また認識 に際 しては
単純 に最大値を出力 した出カ ニ ュー ロンに相当す るカテ ゴ リを認識結果 とするような構成であ っ
3)を い、パ ター ン
く
用
た (1)(2)。
本 稿では、階層型ニ ューラルネ ッ トとその学習則であるBP法
認識問題 の一例 として手書 き数字認識を取 り挙げ、複数の特徴 ベ ク トルを個別に学習 した複数個
のニ ュー ラル ネ ッ トの 出力値 を統合的に判定す る複合ニ ューラルネ ッ ト回路 と名付けた方法 によ
り認識率 の改善 を図ることが出来 ることを示す
(4)。
2.手 書き数字 の特徴 ベ ク トルの抽出
ここで用 いた手書 き数字デー タはタブ レッ トのベ ンよ り入力された点列情報及 びベ ンア ップ/
ダウ ン情報を基 に点列間を均一 の太さを有す る線分で結んだ ものを用 いた。更 に、大 きさ及び位
置 に依存 しないよ うにす るため枠取 り ・正規化処理を行 う。す なわち外接長方形 を用 いた枠取 り
処理を行 った後、長辺 の長 さを一定 の値 (256ドッ ト)に 正規化 し、さらに この正規化 された長
方形 が外接正方形 の 中央 になるように配置す る。
手書 き数字デー タは、12人により作成された計960個を用 いた。各作成者 は 0∼ 9ま での数字
をそれぞれ 8個 ずつ計80個の数字 を入力 し、 フ ァイルに保存 した。認識に利用する特徴ベ ク トル
として種 々の ものが考え られ るが ここでは次の 4種 類の情報を採用 した。
(1)直 交軸方向面積投影情報
(2)重 心 の周 りの極方向面積投影情報
(3)原 イメー ジ情報
(4)原 イメー ジの 2次 元 FFTの
パ ワー情報
`4'に
対する これ ら投影情報及び原 イメー ジ抽出の様子 を示す。すなわ
図 1に 、手書 き数字
ち肉付けされたイメー ジデー タは、 x軸 , y軸 方向へ それぞれ面積投影 され、各 々16次元 ベ ク ト
ルデー タで表現 され る。 この処理 と同時に求 め られた重心を中心 とす る極座標方向への面積投影
デー タは10°ず つ計36次元ベ ク トルデー タとして表現 される。 さらに、原イメー ジは16×16のメ
`4'の
16×16の原 イ
ッシュに相当す る250次元ベ ク トルデー タで表現 される。図 2に 、 この数字
メー ジに対す る 2次 元 FFTの
パ ワーの例を示す。 (但し直流分は 0と して い る)。こ の 256
-
1
-
個 の パ ワーベ ク トルか ら直流成分並 びに対称 成分を取 り除 いて最大値で正規化 した129次元 ベ ク
トル を 2次 元 FFT情
報 と して使用 して い る。
● El〕
ヽ
tょ重 ,じ
□ □ で は間 宜 2 0 %
以 上 の 部分 を示 す。
(a)直
交軸方 向面積投影情報
(b)重 心 の周 りの極方向面積投影情 報
図 1 面 積投影
図 2 2次
元 FFTの
パ ワー
3 . 個 別 ニ ュー ラルネ ッ トの学習 とその結果
以下に示す 5 種 類 の特徴 ベ ク トル を入 力 と して、通 常 の B P 法 を用いて個別 に 3 層 の ニ ュー ラ
ル ネ ッ トの学習を行 い、オ ー プ ン認識率を求めた。 5 種 類 の特徴 ベ ク トル は次の通 りであ る。
- 2 -
(1)直
交軸方 向面積投影情報
(2)重 心 の 周 りの極方 向面積投影情報
(3)直
交軸方 向面積投影情報 十重心 の周 りの極方向面積投影情報
(4)原
イメー ジ情報
(5)原
イメー ジの 2次 元 FFTの
パ ワー情報
この場合、各 ニ ュー ラル ネ ッ トの学習 に用 いた手書 き数字 デ ー タベ ー スは条件を等 しくす るた
人当 り
め 同 一 の もの を用 いて お り、前述 の12人の 作成 した960個のデ ー タの 内の240個 (各数字 本
2個 ず つ 計 24個 )の 手書 き数字 を用 いた。 また、各ニ ュー ラルネ ッ トの 未知 デ ー タに対す る認識
一
率 (オ ー プ ン認識率)算 出用 の 手書 き数字 デ ー タベ ー スに対 して も条件を等 しくす るため同 の
一
ものを用 いて お り、同 じ12人の作成 した残 りの720個 (各数字 人当 り 6個 ず つ計 72個)の 手書
き数字 を用 い た。
表 1に 、個別 ニ ュー ラルネ ッ トの構造及 びオ ー プ ン認識率を示す。 これか ら直交軸方向面積投
影 ■重心周 りの極方 向面積投影 の 如 く、異種 の特徴 ベ ク トルを 同時 に入力 して学習 させ ると、そ
れぞれ単独で学習 させた場合 よ りも大幅に認識率が向上す ることが明 らかにな った。
4.複 合 ニ ュー ラルネ ッ ト回路 による総合判定
ー
前節 で述 べ た 5種 類 の特徴 ベ ク トル を用 いて 個別 に学習 させたニ ュ ラルネ ッ トのそれぞれ の
オ ー プ ン認識率 は満足す べ き値で はない。認識率改善 の一方法 と して個別 ニ ュー ラルネ ッ トの 判
定結果 の 多数決 によ り最終結果を決定す ることも考え られ るが必ず しも認識率の向上 には結 び付
かな い。 これ は個別 ニ ュー ラル ネ ッ トにおける認識判定 には最大値を出力 したニ ュー ロンのみ に
注 目 し、 その他 の 出カ ニ ュー ロ ンの値を有効 に活用 して いないため と考え られ る。本稿で は、 複
数個 の個別 ニ ュー ラルネ ッ トの 出カ ニ ュー ロンの各出力値 を 有効 に活用す るため、未知 (unknown)
の確率を考慮 にいれた Dempsterお よび Shaferの 確率理論 (5)(6)を用 いて 最終判定 を行 う、図
3に 示す よ うな総合判定回路を設 けた複合 ニ ュー ラルネ ッ ト回路 と名付 けた方法を提案す る。
ここで は、独立 に学習を行 った複数個 の個別 ニ ュー ラル ネ ッ トの各 出カ ニ ュー ロ ンの 出力値 を
統合す る方法 と して次 に述 べ る 2種 の手法 について検討 を行 った。
(1)方
法1
本方法 で は個別 ニ ュエ ラルネ ッ トの 出カ ニ ュー ロンの 出力値 (これ は シグモ イ ド関数 の 出力 で
あ るので 0と 1の 間 の値 を とる)は それぞれ 独立 である (厳密 には独立 で はない)と 仮定 し、 そ
れぞれ別個 の基本確率 と考え、Dempsterの
結合則を適用す る。
( 2 ) 方法 2
ー
方法 1 で は個別 ニ ュー ラルネ ッ トの 各 出カ ニ ュ ロンの 出力値 は独立であ ると したの に対 し、
ここで は独立 と考えな いで 1 つ の個別 ニ ュー ラルネ ッ トの 出カ ニ ュー ロンの 出力値 の組 を 予 め定
めた一 定 の未知量 μを加味 して正規化 した ものを基 本確率 と考え る。
- 3 -
中間層
ニ ュー ロ ン
ン
層ロ
カ 一数
出 ユ
ニ
1論
ン
窟眉ロ
カ 一数
入 ユ
ニ
表 1 個 別 ニ ュー ラルネ ッ ト回路 の構造及 び認 識率
数
直交軸方 向面積投影
認識率
10
10
重心周 りの極方向面積投影
89.7%
88,6%
直交軸方向 十重心周 りの極方向面積投影
原 イ メー ジ
原 イ メ ー ジの 2 次 元 F F T の
オ ープ ン
256
パ ワー
15
95.0%
10
89.9%
129
10
93.9%
」J 力
直交 + 極 力向
原 イメ ージ
2 次 元 F F T
面 lR!費彫 1膚tR
ニ ュー ラル ネ ッ ト 1
ニ ユ ー ラ ル ネ ッ ト2
ニ ュー ラ ル ネ ッ ト3
図 3 総 合判定回路を有す る複合 ニ ュー ラルネ ッ ト回路
以上 の 2つ の方法 に対 し、図 3に 示す よ うに、
盟 撤 韓 ( % )
① 直交軸方 向面積投影情報 十重心周 りの極方向面
積投影情報、②原 イメ ー ジ情報、③原 イメ ー ジの
2次 元 FFTの
パ ワー情報 の 3つ の特徴 ベ ク トル
を用 いて 、 それぞれ独立 に学習 させた 3種 の個別
ニ ュー ラルネ ッ トを総合判定回路 に加えて認識実
験を行 った。 その結果最終認識率 は、方法 1で は
97,9%、 方法 2で は図 4に 示す よ うにμ≧0.5で
認識率 は98.1%と な り、本方法 の有効性が確認 さ
れ た。
図 4 方 法 2 に よる未知量 μに対す る
オ ー プ ン認識率 の変化
- 4 -
5 . む すび
ー
相異 な る特 徴 ベ ク トル を用 いて 独 立 に学 習 させ た複数個 の 個別 ニ ュ ラ ル ネ ッ トの 出力 を
D e m p s t c r & S h a f e r の確率理論を用 いて統合的に判定を行 う複合 ニ ュー ラル ネ ッ ト回路 を提案 し、
手書 き数字認識 に適用 して その 有効性 を確認 したc 複 数個 の 相異 なる特徴 ベ ク トル を同時に入力
して学習 させ る場合 に比 べ 、 ここで 提案 した手法 は、 ハ ー ドウエ アの 複雑 さ、学習時間 の短 縮 の
面で 一 般 に有利 であ ると考え られ る。
今後、 ここで採用 した以外 の特徴 ベ ク トル、例えば x 軸 、 y 軸 周 りのモ ー メン ト、重心 の座標、
Hadamard変
換係数、H o u g h 変換信号等を入力 と して用 い ることによ り認識率 の 更 なる改 善を意図
して ヽヽ
る。
最後 に、 本研究 の遂 行 に当 り多大 な御支援 を いただ いた働 高柳記念電 子科学技術振興財回 に厚 く
お礼 申 し上 げ るとともに、故 高柳 先生 の ご冥福を心 よ りお祈 り致 します。
参考文献
", 信
ー
学 技報, P R U 8 8 5 7 , p p . 7 1 7 7
〔1 〕 香 田、 他 : “ニ ュ ラルネ ッ トによ る手 書 き英数字認識
(日
召6 3 ) .
〔2〕 山 田、 他 : “ニ ュー ラ ル ネ ッ トを用 い た文字認識
〔3〕 D.E.Rumelhart et al, :
", 信
63).
学 技報,PRU88 58,pp.7986(昭
P arallel Distributed Processing",
“
Vol.l ll Vol.2 MIT Press
(1986).
〔4 〕 加藤 、 高木 : “複数 の 特徴 ベ ク トル を利 用 した ニ ュ ー ラルネ ッ トによ る手 書 き数字 認 識
",
信 学技報 , P R U 8 8 1 5 1 ( 平 0 1 ) .
〔5 〕 石塚 : “D e m p s t e r & S h a f e r の 確 率理論
", 電
子通信学 会誌, 第 6 6 巻, 9 号 , p p . 9 0 0 9 0 3
(日
召5 8 ) .
〔6〕 石塚 : “曖昧 な 知識 の 表現 と利用
", 情
報 処理学 会誌 ,Vol.26,No,12,pp.14811486
(口
召6 0 ) .
- 5 -