Nara Women’s University 近代書籍に特化した 多フォント活字認識法 芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館 発表の流れ 1. 2. 3. 4. 5. 背景 目的と問題点 文字認識の手法 実験 まとめ Nara Women’s University 背景 国立国会図書館 近代デジタルライブラ リー – 蔵書のデジタルアーカイブ化 – Webでの閲覧が出来るサービス Nara Women’s University 問題点 テキスト化の必要性 – 明治~大正期の書籍 約160,000冊 • そのほとんどが画像データ →全文検索の適用不可 書籍の問題 – フォントの種類が不明 – 旧字体/異字体を含む – 低品質の印刷 →従来のOCR技術を適用できない 近代活字OCRの必要性 Nara Women’s University 旧字体 Nara Women’s University 文字認識の流れ 入力 前処理 特徴抽出 識別 Nara Women’s University 前処理 入力 前処理 特徴抽出 ノイズの除去 画像余白の除去 大きさの補正 位置の補正 識別 Nara Women’s University 特徴抽出 入力 前処理 特徴抽出 識別 PDC(Peripheral Direction Contribution: 外郭方向寄与度)特徴 – 文字線の 1. 複雑さ 2. 方向 3. 接続関係 4. 相対位置関係 を抽出する Nara Women’s University PDC特徴 8方向から走査 示 走査 ぶつかった点から8方向に矢印 を伸ばす 長さが方向寄与度となる Nara Women’s University PDC特徴 •方向寄与度→どの向きの 成分が大きいかを表す 走査方向 深度1 深度2 深度3 •第2,第3深度の成分が –0でない→文字線が複雑 –0である→文字線が単純 •正反対の方向の矢印の長 さを足し合わせ,4方向の長 さを得る Nara Women’s University PDC特徴 第1外郭形状 第2外郭形状 元画像 第3外郭形状 Nara Women’s University PDC特徴 特徴ベクトル – 特徴ベクトルの次元 • 全走査方向(8方向) × 深度(外郭深度N=3) × 寄与度成分(4方向) × 区画(16区画※) = 1536次元ベクトル ※各方向128回の走査の後, 16等分して平均 あ となる Nara Women’s University 文字の識別 入力 前処理 特徴抽出 識別 SVM(Support Vector Machines)を 使用 –機械学習の一種 –高い汎化性能 –マージン最大化 –カーネルトリック Nara Women’s University Support Vector Machines 原理 × 線形分離不可能な データ 分離超平面 wx b 0 x ○ w 高次元特徴空間に射影 →平面で分離可能 b •比較的単純な仕組み •他の機械学習と比較し同等以上の性能 Nara Women’s University 実験 実験データ – 近代デジタルライブラリーの書籍画像から切り 出した文字 – 文字種:10種類の文字 • 「行」,「三」,「人」,「生」,「十」,「来」,「小」,「中」, 「年」,「彼」の10種 – 教師データを各クラスにつき50個生成し,訓練 LIB-SVMを使用 Nara Women’s University 文字画像例 Nara Women’s University 実験手順(1) 1. 前処理 1. 2. 3. 4. 5. 2値化 3×3のメディアンフィルタ(ノイズ除去) 余白の除去 大きさの補正(線形なサイズ補正) 位置の補正 2. 特徴抽出 • PDC特徴の抽出 Nara Women’s University 実験手順(2) 3. SVMでの学習 • • • 各クラスにつき50個の画像を教師として選択 グリッドサーチによってSVMのパラメータを 決定 教師データの学習 4. 未知データを用いて評価 Nara Women’s University 実験環境 CPU:Intel Pentium D 2.80GHz OS:Windows XP SVM:LIB-SVM ver 2.88 Nara Women’s University 実験結果 認識率 97.8% – 内訳: クラス クラス1(行) クラス2(三) クラス3(人) クラス4(生) クラス5(十) クラス6(来) クラス7(小) クラス8(中) クラス9(年) クラス10(彼) 正答数/テスト データ数 52/52 52/53 83/84 50/50 49/50 84/85 50/50 147/159 103/103 50/50 誤答数 認識率 0 1 1 0 1 1 0 12 0 0 100.0% 98.1% 98.8% 100.0% 98.0% 98.8% 100.0% 92.5% 100.0% 100.0% Nara Women’s University 誤認識した文字(1) ケース1 クラス6(来)と誤認識 ケース2 クラス7(小)と誤認識 ノイズ ケース3 クラス7(小)と誤認識 ケース4 クラス7(小)と誤認識 長い縦線,左右斜め下に延びる線 →類似形状 Nara Women’s University 誤認識した文字(2) ケース5 ケース11 クラス5(十)と誤認識 ケース6 ケース7 ケース8 ケース9 ケース10 クラス6(来)と誤認識 クラス5(十)と誤認識 クラス5(十)と誤認識 クラス9(年)と誤認識 クラス9(年)と誤認識 クラス7(小)と誤認識 ケース12 ケース13 ケース14 ケース15 ケース16 クラス7(小)と誤認識 クラス1(行)と誤認識 クラス7(小)と誤認識 クラス7(小)と誤認識 クラス5(十)と誤認識 Nara Women’s University 誤認識した文字(3) ケース6 クラス6(来)と誤認識 ケース11 ケース12 クラス7(小)と誤認識 ケース13 ケース10 クラス9(年)と誤認識 クラス7(小)と誤認識 クラス1(行)と誤認識 ノイズが多い Nara Women’s University 誤認識した文字(4) ケース5 ケース7 クラス5(十)と誤認識 クラス5(十)と誤認識 ケース8 クラス5(十)と誤認識 ケース16 クラス5(十)と誤認識 「中」と「十」は共に垂直・水平方向に太い文字線 がある 類似した文字形状 Nara Women’s University 誤認識した文字(5) ケース14 クラス7(小)と誤認識 ケース15 クラス7(小)と誤認識 「中」と「小」は共に画像中央に長い縦線とその左 右の短い縦線を持つ 類似した文字形状 ケース9 クラス9(年)と誤認識 Nara Women’s University ニューラルネットワークに よる実験 3層の階層型 中間層:64ユニット 誤差逆伝播法 1000回の学習 – 教師データに対する誤答率0.8% – 学習時間:12248[sec] (参考)中間層32ユニット – 3000回の学習で教師データに対する誤答率10% Nara Women’s University ニューラルネットによる 実験結果 テストデータに対する認識率 77.6% クラス クラス1(行) クラス2(三) クラス3(人) クラス4(生) クラス5(十) クラス6(来) クラス7(小) クラス8(中) クラス9(年) クラス10(彼) 全体 正答数/テスト データ数 42/52 47/53 79/84 40/50 38/50 65/85 41/50 107/159 75/103 37/50 571/736 誤答数 10 6 5 10 12 20 9 52 28 13 165 認識率 80.8% 88.7% 94.0% 80.0% 76.0% 76.5% 82.0% 67.3% 72.8% 74.0% 77.6% Nara Women’s University 考察(SVMによる認識) 誤認識 – ノイズが多い • ノイズの点を文字線と認識 • 余白の除去が適切に行われなかった – 明瞭な文字画像を誤認識する場合もある • 類似した特徴を持つ文字と誤認 – 明確な理由が判明しない誤認もあった 誤認が多いクラス – 学習例がテストデータ数と比較し少ない Nara Women’s University 考察(NNによる学習) 中間層64個で学習 – 認識率77.6% – 中間層32個では不足 学習時間はSVMより長い – SVMの約7.7倍 Nara Women’s University まとめ 近代書籍の活字認識を行った 97.8%の精度で10種の文字を認識できた – SVMはNNより適している 改善点 – ノイズ除去アルゴリズムの改良 – 文字種が多くなる→階層的な分類で対応 – 文字領域の切り出しの自動化 Nara Women’s University
© Copyright 2024 ExpyDoc