スライド 1

大量の謄写版文字のOCRの経験
諏訪邦夫
帝京大学八王子キャンパス
2003年11月日本麻酔・集中治療テクノロジー学会
大量の手書き文字をOCRした経験を
述べる
• 材料:40年以上前に発行した医学生時代の
クラス雑誌4冊。約600頁 テキストで1117K。
• 経緯:「復刻」が話題に。電子化を引き受けた。
• 誤算:量と謄写版印刷
– 4冊も出し合計600頁もあることを失念
– 和文タイプだと思い、OCR可能と推測
– 手書き文字のOCRむずかしい点に無知
入手してびっくり仰天
• 自分の手元にもあるかもしれないが無関心
• 現物が送られてきてびっくり
– 分量と謄写版印刷
• 試みるまでもなく、OCRは極端に難物
• 調査:OCRの可能性
– 「手書き文字のOCR」というソフトはない
– 通常のOCRソフトをいくつか試用。どれも同じよう
に低性能
幸いした要因
• 夏休みで時間が空いた
• OCRソフトがよくできている
– 手を加えている時に対応の部位を色で示す
• 使いなれたOCRソフトの工夫
– 登録:仮名はある程度有用だった
• 内容が素晴らしく、それで仕事が面白い
原文とOCRとの比較
要した労力
•
•
•
•
•
1頁のOCRに20~30分
単純計算で200時間
これは夏休みがあったから可能
「丁寧に読み直して手をいれる」という気分
「訳のわからない変な文章」はごく少量
楽しかった点
• 自分自身
– いかにも自分らしい点と案外自分らしくない点と
– 40年前の自分と対面している気持
• よく知っている友人
– 当時の思い出と,その後の成長との関係
• 付き合いの少なかった友人の文章
• 発行時に読んでなかったもの
– 最終号発行は卒業時で、斜め読みしている
40年前の文章で気づいた点
• 内容面:安保条約改定、警察官職務執行法
など学生運動関係
• 文章と文字の特徴:旧仮名遣いの癖が少し
残っている
• 単位の差:1貫目(3.75kg)、1里(≒4km)
• 単位は同じでも文字が違う:1糎=1cm
復刻の問題
• 当初からの希望だが
• 未解決:費用が最大の難問
– 150部印刷で百万円以上と予測
– 現役の頃なら「そんなのは俺が負担する」という
人がいたろうが
• 商品化は著作権との関係で困難(連絡のつ
かない著者がいるなど)
結論
• 現在のOCRは、印刷文字に対しては良好に
機能する
• 手書き文字のOCR機能は貧弱
• 解決は技術的にはむずかしい
• 楽しみや価値を生むなら可能性あり