│ │ 複数 の特徴 ベク トルを用いたニ ュニラルネ ッ ト による手書 き数字認識に関する研究 加藤 誠 巳 上智大学 理 工学部 電 気 ・電 子 工 学 科 教 授 1:ま えがき 階層型 ニ ューラルネ ッ トをパ ター ン認識問題へ適用 した例 は多数見受け られ、その うち特 に文 字認識、音声認識への期待 は益 々高 まりつつある。 しか し、 これまでの報告 の多 くは、比較的単 純 な特徴 ベ ク トルを用 い、単一のニ ューラルネ ッ トで学習及 び認識を行 い、また認識 に際 しては 単純 に最大値を出力 した出カ ニ ュー ロンに相当す るカテ ゴ リを認識結果 とするような構成であ っ 3)を い、パ ター ン く 用 た (1)(2)。 本 稿では、階層型ニ ューラルネ ッ トとその学習則であるBP法 認識問題 の一例 として手書 き数字認識を取 り挙げ、複数の特徴 ベ ク トルを個別に学習 した複数個 のニ ュー ラル ネ ッ トの 出力値 を統合的に判定す る複合ニ ューラルネ ッ ト回路 と名付けた方法 によ り認識率 の改善 を図ることが出来 ることを示す (4)。 2.手 書き数字 の特徴 ベ ク トルの抽出 ここで用 いた手書 き数字デー タはタブ レッ トのベ ンよ り入力された点列情報及 びベ ンア ップ/ ダウ ン情報を基 に点列間を均一 の太さを有す る線分で結んだ ものを用 いた。更 に、大 きさ及び位 置 に依存 しないよ うにす るため枠取 り ・正規化処理を行 う。す なわち外接長方形 を用 いた枠取 り 処理を行 った後、長辺 の長 さを一定 の値 (256ドッ ト)に 正規化 し、さらに この正規化 された長 方形 が外接正方形 の 中央 になるように配置す る。 手書 き数字デー タは、12人により作成された計960個を用 いた。各作成者 は 0∼ 9ま での数字 をそれぞれ 8個 ずつ計80個の数字 を入力 し、 フ ァイルに保存 した。認識に利用する特徴ベ ク トル として種 々の ものが考え られ るが ここでは次の 4種 類の情報を採用 した。 (1)直 交軸方向面積投影情報 (2)重 心 の周 りの極方向面積投影情報 (3)原 イメー ジ情報 (4)原 イメー ジの 2次 元 FFTの パ ワー情報 `4'に 対する これ ら投影情報及び原 イメー ジ抽出の様子 を示す。すなわ 図 1に 、手書 き数字 ち肉付けされたイメー ジデー タは、 x軸 , y軸 方向へ それぞれ面積投影 され、各 々16次元 ベ ク ト ルデー タで表現 され る。 この処理 と同時に求 め られた重心を中心 とす る極座標方向への面積投影 デー タは10°ず つ計36次元ベ ク トルデー タとして表現 される。 さらに、原イメー ジは16×16のメ `4'の 16×16の原 イ ッシュに相当す る250次元ベ ク トルデー タで表現 される。図 2に 、 この数字 メー ジに対す る 2次 元 FFTの パ ワーの例を示す。 (但し直流分は 0と して い る)。こ の 256 - 1 - 個 の パ ワーベ ク トルか ら直流成分並 びに対称 成分を取 り除 いて最大値で正規化 した129次元 ベ ク トル を 2次 元 FFT情 報 と して使用 して い る。 ● El〕 ヽ tょ重 ,じ □ □ で は間 宜 2 0 % 以 上 の 部分 を示 す。 (a)直 交軸方 向面積投影情報 (b)重 心 の周 りの極方向面積投影情 報 図 1 面 積投影 図 2 2次 元 FFTの パ ワー 3 . 個 別 ニ ュー ラルネ ッ トの学習 とその結果 以下に示す 5 種 類 の特徴 ベ ク トル を入 力 と して、通 常 の B P 法 を用いて個別 に 3 層 の ニ ュー ラ ル ネ ッ トの学習を行 い、オ ー プ ン認識率を求めた。 5 種 類 の特徴 ベ ク トル は次の通 りであ る。 - 2 - (1)直 交軸方 向面積投影情報 (2)重 心 の 周 りの極方 向面積投影情報 (3)直 交軸方 向面積投影情報 十重心 の周 りの極方向面積投影情報 (4)原 イメー ジ情報 (5)原 イメー ジの 2次 元 FFTの パ ワー情報 この場合、各 ニ ュー ラル ネ ッ トの学習 に用 いた手書 き数字 デ ー タベ ー スは条件を等 しくす るた 人当 り め 同 一 の もの を用 いて お り、前述 の12人の 作成 した960個のデ ー タの 内の240個 (各数字 本 2個 ず つ 計 24個 )の 手書 き数字 を用 いた。 また、各ニ ュー ラルネ ッ トの 未知 デ ー タに対す る認識 一 率 (オ ー プ ン認識率)算 出用 の 手書 き数字 デ ー タベ ー スに対 して も条件を等 しくす るため同 の 一 ものを用 いて お り、同 じ12人の作成 した残 りの720個 (各数字 人当 り 6個 ず つ計 72個)の 手書 き数字 を用 い た。 表 1に 、個別 ニ ュー ラルネ ッ トの構造及 びオ ー プ ン認識率を示す。 これか ら直交軸方向面積投 影 ■重心周 りの極方 向面積投影 の 如 く、異種 の特徴 ベ ク トルを 同時 に入力 して学習 させ ると、そ れぞれ単独で学習 させた場合 よ りも大幅に認識率が向上す ることが明 らかにな った。 4.複 合 ニ ュー ラルネ ッ ト回路 による総合判定 ー 前節 で述 べ た 5種 類 の特徴 ベ ク トル を用 いて 個別 に学習 させたニ ュ ラルネ ッ トのそれぞれ の オ ー プ ン認識率 は満足す べ き値で はない。認識率改善 の一方法 と して個別 ニ ュー ラルネ ッ トの 判 定結果 の 多数決 によ り最終結果を決定す ることも考え られ るが必ず しも認識率の向上 には結 び付 かな い。 これ は個別 ニ ュー ラル ネ ッ トにおける認識判定 には最大値を出力 したニ ュー ロンのみ に 注 目 し、 その他 の 出カ ニ ュー ロ ンの値を有効 に活用 して いないため と考え られ る。本稿で は、 複 数個 の個別 ニ ュー ラルネ ッ トの 出カ ニ ュー ロンの各出力値 を 有効 に活用す るため、未知 (unknown) の確率を考慮 にいれた Dempsterお よび Shaferの 確率理論 (5)(6)を用 いて 最終判定 を行 う、図 3に 示す よ うな総合判定回路を設 けた複合 ニ ュー ラルネ ッ ト回路 と名付 けた方法を提案す る。 ここで は、独立 に学習を行 った複数個 の個別 ニ ュー ラル ネ ッ トの各 出カ ニ ュー ロ ンの 出力値 を 統合す る方法 と して次 に述 べ る 2種 の手法 について検討 を行 った。 (1)方 法1 本方法 で は個別 ニ ュエ ラルネ ッ トの 出カ ニ ュー ロンの 出力値 (これ は シグモ イ ド関数 の 出力 で あ るので 0と 1の 間 の値 を とる)は それぞれ 独立 である (厳密 には独立 で はない)と 仮定 し、 そ れぞれ別個 の基本確率 と考え、Dempsterの 結合則を適用す る。 ( 2 ) 方法 2 ー 方法 1 で は個別 ニ ュー ラルネ ッ トの 各 出カ ニ ュ ロンの 出力値 は独立であ ると したの に対 し、 ここで は独立 と考えな いで 1 つ の個別 ニ ュー ラルネ ッ トの 出カ ニ ュー ロンの 出力値 の組 を 予 め定 めた一 定 の未知量 μを加味 して正規化 した ものを基 本確率 と考え る。 - 3 - 中間層 ニ ュー ロ ン ン 層ロ カ 一数 出 ユ ニ 1論 ン 窟眉ロ カ 一数 入 ユ ニ 表 1 個 別 ニ ュー ラルネ ッ ト回路 の構造及 び認 識率 数 直交軸方 向面積投影 認識率 10 10 重心周 りの極方向面積投影 89.7% 88,6% 直交軸方向 十重心周 りの極方向面積投影 原 イ メー ジ 原 イ メ ー ジの 2 次 元 F F T の オ ープ ン 256 パ ワー 15 95.0% 10 89.9% 129 10 93.9% 」J 力 直交 + 極 力向 原 イメ ージ 2 次 元 F F T 面 lR!費彫 1膚tR ニ ュー ラル ネ ッ ト 1 ニ ユ ー ラ ル ネ ッ ト2 ニ ュー ラ ル ネ ッ ト3 図 3 総 合判定回路を有す る複合 ニ ュー ラルネ ッ ト回路 以上 の 2つ の方法 に対 し、図 3に 示す よ うに、 盟 撤 韓 ( % ) ① 直交軸方 向面積投影情報 十重心周 りの極方向面 積投影情報、②原 イメ ー ジ情報、③原 イメ ー ジの 2次 元 FFTの パ ワー情報 の 3つ の特徴 ベ ク トル を用 いて 、 それぞれ独立 に学習 させた 3種 の個別 ニ ュー ラルネ ッ トを総合判定回路 に加えて認識実 験を行 った。 その結果最終認識率 は、方法 1で は 97,9%、 方法 2で は図 4に 示す よ うにμ≧0.5で 認識率 は98.1%と な り、本方法 の有効性が確認 さ れ た。 図 4 方 法 2 に よる未知量 μに対す る オ ー プ ン認識率 の変化 - 4 - 5 . む すび ー 相異 な る特 徴 ベ ク トル を用 いて 独 立 に学 習 させ た複数個 の 個別 ニ ュ ラ ル ネ ッ トの 出力 を D e m p s t c r & S h a f e r の確率理論を用 いて統合的に判定を行 う複合 ニ ュー ラル ネ ッ ト回路 を提案 し、 手書 き数字認識 に適用 して その 有効性 を確認 したc 複 数個 の 相異 なる特徴 ベ ク トル を同時に入力 して学習 させ る場合 に比 べ 、 ここで 提案 した手法 は、 ハ ー ドウエ アの 複雑 さ、学習時間 の短 縮 の 面で 一 般 に有利 であ ると考え られ る。 今後、 ここで採用 した以外 の特徴 ベ ク トル、例えば x 軸 、 y 軸 周 りのモ ー メン ト、重心 の座標、 Hadamard変 換係数、H o u g h 変換信号等を入力 と して用 い ることによ り認識率 の 更 なる改 善を意図 して ヽヽ る。 最後 に、 本研究 の遂 行 に当 り多大 な御支援 を いただ いた働 高柳記念電 子科学技術振興財回 に厚 く お礼 申 し上 げ るとともに、故 高柳 先生 の ご冥福を心 よ りお祈 り致 します。 参考文献 ", 信 ー 学 技報, P R U 8 8 5 7 , p p . 7 1 7 7 〔1 〕 香 田、 他 : “ニ ュ ラルネ ッ トによ る手 書 き英数字認識 (日 召6 3 ) . 〔2〕 山 田、 他 : “ニ ュー ラ ル ネ ッ トを用 い た文字認識 〔3〕 D.E.Rumelhart et al, : ", 信 63). 学 技報,PRU88 58,pp.7986(昭 P arallel Distributed Processing", “ Vol.l ll Vol.2 MIT Press (1986). 〔4 〕 加藤 、 高木 : “複数 の 特徴 ベ ク トル を利 用 した ニ ュ ー ラルネ ッ トによ る手 書 き数字 認 識 ", 信 学技報 , P R U 8 8 1 5 1 ( 平 0 1 ) . 〔5 〕 石塚 : “D e m p s t e r & S h a f e r の 確 率理論 ", 電 子通信学 会誌, 第 6 6 巻, 9 号 , p p . 9 0 0 9 0 3 (日 召5 8 ) . 〔6〕 石塚 : “曖昧 な 知識 の 表現 と利用 ", 情 報 処理学 会誌 ,Vol.26,No,12,pp.14811486 (口 召6 0 ) . - 5 -
© Copyright 2024 ExpyDoc