大量の謄写版文字のOCRの経験 諏訪邦夫 帝京大学八王子キャンパス 2003年11月日本麻酔・集中治療テクノロジー学会 大量の手書き文字をOCRした経験を 述べる • 材料:40年以上前に発行した医学生時代の クラス雑誌4冊。約600頁 テキストで1117K。 • 経緯:「復刻」が話題に。電子化を引き受けた。 • 誤算:量と謄写版印刷 – 4冊も出し合計600頁もあることを失念 – 和文タイプだと思い、OCR可能と推測 – 手書き文字のOCRむずかしい点に無知 入手してびっくり仰天 • 自分の手元にもあるかもしれないが無関心 • 現物が送られてきてびっくり – 分量と謄写版印刷 • 試みるまでもなく、OCRは極端に難物 • 調査:OCRの可能性 – 「手書き文字のOCR」というソフトはない – 通常のOCRソフトをいくつか試用。どれも同じよう に低性能 幸いした要因 • 夏休みで時間が空いた • OCRソフトがよくできている – 手を加えている時に対応の部位を色で示す • 使いなれたOCRソフトの工夫 – 登録:仮名はある程度有用だった • 内容が素晴らしく、それで仕事が面白い 原文とOCRとの比較 要した労力 • • • • • 1頁のOCRに20~30分 単純計算で200時間 これは夏休みがあったから可能 「丁寧に読み直して手をいれる」という気分 「訳のわからない変な文章」はごく少量 楽しかった点 • 自分自身 – いかにも自分らしい点と案外自分らしくない点と – 40年前の自分と対面している気持 • よく知っている友人 – 当時の思い出と,その後の成長との関係 • 付き合いの少なかった友人の文章 • 発行時に読んでなかったもの – 最終号発行は卒業時で、斜め読みしている 40年前の文章で気づいた点 • 内容面:安保条約改定、警察官職務執行法 など学生運動関係 • 文章と文字の特徴:旧仮名遣いの癖が少し 残っている • 単位の差:1貫目(3.75kg)、1里(≒4km) • 単位は同じでも文字が違う:1糎=1cm 復刻の問題 • 当初からの希望だが • 未解決:費用が最大の難問 – 150部印刷で百万円以上と予測 – 現役の頃なら「そんなのは俺が負担する」という 人がいたろうが • 商品化は著作権との関係で困難(連絡のつ かない著者がいるなど) 結論 • 現在のOCRは、印刷文字に対しては良好に 機能する • 手書き文字のOCR機能は貧弱 • 解決は技術的にはむずかしい • 楽しみや価値を生むなら可能性あり
© Copyright 2024 ExpyDoc