2016.05.11

情報技術演習Ⅰ
人文学研究のための情報技術入門
2016/05/11
担当:林晋
今回のテーマ
OCR ツールの使い方
文書とOCR
• 「文書」という言葉には色々な意味があります.コンピュータ上では,
“aaa.txt”, “bbb.doc” などの文書がありますし,“20150430.ppt” というファ
イルも「PowerPoint の文書」と呼ばれることがあります.これらはSJIS,
Unicode などの文字コードで文を表現していますので,コード化文書と呼
べるでしょう(一般的用語がないので,林が作った言葉です).
• 紙の上のインクや看板上のペンキ,石碑上の凹み,などの物理的模様に
よる文書を物理的文書ということにしましょう.皆さんが見ているモニタ
(ディスプレィ)上の,この文書も物理的文書と言えるでしょう.
• また,物理的文書をデジカメで撮影して作った “aaa.jpg” “bbb.bmp”など
の電子画像を画像化文書(正確には電子画像化文書)と呼びましょう.
• OCR とは画像化文書をコード化文書に変換することだといえます.物理
的文書を画像化して画像化文書にするにはデジカメやスキャナを使いま
す.
OCRとスキャナの実習
• 今日は,スキャンとOCRを実際にやってもらい
ます.
• そして,その結果のテキストファイルが提出す
べき課題となります.
• 注意:スキャンやOCRの方法は, 今日やって
みる以外の方法が色々あります.自分で調
べてみましょう.参考
スキャン+OCRの応用:自炊
• 大量の書物を読んでレポートを書く,卒論を書く,研究する場合,それが
Google Books の書籍のように検索できると大変便利
• また検索ができなくても,書籍がデジタル画像になっていれば,大量の本
を軽々ともち運ぶことができる.
• 本棚も不必要になり省スペースになる
• それらを可能にするのが,いわゆる自炊
• 本を解体したりして,スキャナーで電子画像にし,PDFファイルなどにまと
めることを自炊という.
• 注意!!!
– これは自分だけのためにやるのならば問題がないが,人に渡してしまったりすると著
作権侵害となる(らしい)ので注意!!
– これからやる演習の結果も,林への課題提出以外では,決して他人に渡してはいけま
せん
自炊のやり方を書いたWEBページ
• http://wikiwiki.jp/bookjisui/
• http://ushigyu.net/2012/03/01/jisui_q_and_a
_by_jisui_blogger/
• http://bizmakoto.jp/bizid/articles/1006/01/ne
ws031.html
• http://pc.watch.impress.co.jp/docs/topic/feat
ure/20110218_426830.html
本を解体する自炊の方法
• 本を裁断して,iX500 の様な専用スキャナで
読み込む.
• 長所と短所
– 短所:本がバラバラ.捨てることになる.
– 長所:裁断さえできれば,読み込み(スキャン)は
簡単かつ速い.(後で実際にやってみる.)
– 短所:裁断は裁断機のよいものがない場合は大
変
裁断の事例集
•
•
•
•
•
http://www.youtube.com/watch?v=pYBLZUKB0Uw
http://www.youtube.com/watch?v=6D_6unB4X6c&feature=related
http://www.youtube.com/watch?v=RD2EmcgVRR8&feature=related
ディスクカッター
http://www.youtube.com/watch?v=wJ5Lefyx26E&feature=related
• 電子レンジを使う方法:
http://www.youtube.com/watch?v=G7i9E4XovMw&feature=related
• 置き場所にさえ困らなければ,大きいが比較的安い裁断機もある.
融合型:一度コピーする方法
• 普通のフラットベッド・スキャナは,コピー機に
比べて,一枚をスキャンする時間が長い.
• そこで本をコピーするときと同様,一度,コピ
ー機でコピーを作り,それをドキュメント・スキ
ャナにかけるという方法もあります.
• これは紙のコピーも作っておきたいときには
便利な方法ですが,コピー代がかかるという
短所があります.
オーバーヘッド・スキャナ
ScanSnap SV600 (1/4)
• 以上,紹介してきた方法で本,特に厚みのあ
る本をスキャンするのは,いずれにしてもか
なり大変でした.
• しかし,2013年,オーバーヘッド・スキャナ
ScanSnap SV600 というものが発売されて,状
況が大きく変わりました.
• まず,そのデモ画像を見ます:
• https://www.youtube.com/watch?v=j9oeXiNqIDk
オーバーヘッド・スキャナ
ScanSnap SV600 (2/4)
• 撮影用無反射ガラスを使うと良い:押さえ指のソフトによる削除は面倒だ
し,指で両端を抑えたのでは,本中央の盛り上がりは抑えられず,そのた
めに画像がどうしても歪む. 歪みは,後でやってみるように,ソフトで修正
できるが,いつもは上手くいかないし,時間がかかる.
• しかし,無反射ガラスを使って,それで押さえて撮影する方が良い結果が
得られる.
– http://www.glass-dictionary.com/14/
– ヨドバシのオンライショップ
– 透明アクリル板で代用できる.
• ページめくり検出でなく,ボタンを一回一回押す方が実用的. ボタンは大
きく,苦にならず,おそらく,慣れると,その方が速い. 特に無反射ガラス
を使う場合はそう.
オーバーヘッド・スキャナ
ScanSnap SV600 (3/4)
• 長所
– 安い,小さい,軽い: 5万円台
• この様なスキャナは以前から業務用として販売されていました. し
かし,それは数十万円もする大きくて重い機械でした.
• それが個人でも買えて,何時もは,小さくしまっておけるようにな
り,調査旅行にも持っていける(キャリングケースがついている)
ようになったところが,歴史家の目からすると革命的なのです.
– 天井の照明の映り込みを気にしないで済む.
• 次回の「デジカメによる史料撮影の方法」の紹介で詳しく説明する
が,高精度史料撮影の最大の難関は,史料を押さえるために使
う無反射ガラスに,天井の照明が映り込んでしまうこと. これは特
に,出張して撮影するときに大きな問題となる.
• SV600は自ら発光してスキャンするので,天井の照明をオフにす
ることができる.
オーバーヘッド・スキャナ
ScanSnap SV600 (4/4)
• 短所
– 不十分な精度: 個人で自炊するとか,歴史史料を撮影し
てきて研究する場合,つまり,自分だけのために撮影する
には,十分な精度がある. しかし,たとえば,京都学派ア
ーカイブのような公開されたアーカイブのための画像を作
る場合には,現在のWEBアーカイブに求められている画
像精度に達していない.
– スピード: 群馬大学図書館の田辺元史料で,昨年秋に,
林が実際にデジカメとSV600で撮影とスキャンをしてみた
ときの記録:林晋ブログ記事2013年11月18日
• デジカメ撮影より若干遅い. 現代史の研究者は,一日に数百の画
像を撮ることは普通. 千を超えることも珍しくはない. そういう場合
には遅すぎる.
安いスキャナも
• iX500 の様な本格的スキャナの大きな利点は
高速性です.
• しかし,これを少し犠牲にした,大変小さく安
いスキャナもあります.iX100 S1300i
• 用途にもよりますが,普通は,こういうので十
分間に合います.
無料でOCRを使う方法
• OCRのソフトはかなり安くなっていますが,それでも例えば
e-typist は2万円近くします.
• Google のクラウドサービスを使ってテキスト化することも可能
です.Google ドライブでOCR.
• また,日本語のCORで十分な精度のものがないものの,フリ
ーのツールを使うという方法もあります.たとえば,英語のフ
リーのOCRツールは調べればすぐに見つかりますし,後で演
習で使う情報・史料学専修で開発しているツールSMART-GS
を使えばグーグルが無料で配布しているOCRエンジン
Tesseract を使って,市販ソフトより高いと思われる精度で英
文をテキスト化できます.
• これらについては、後に学びます。
実際にやってみよう
• 資料の説明を完了した後,前に集まってもらいます.
• そして,まず,林がスキャン+OCRをやってみせます.
その後で,それぞれのPCに適当に分かれて,各自,
自分で実際にやってみてください.それが今日の課
題です.
• スキャナは2種類.ScanSnap iX500 と SV600です.
• 2種類の両方をやってください.おそらく時間は足り
ると思いますが,足りない場合は,次回も,同じ演習
を行います. (他の演習も行います).
課題A(提出要):
ScanSnap SV600, iX 500 を使う
• 日本語の本をSV600で、裁断した英語の本のページを、iX500 で、それぞ
れ2ページ分スキャンしてください.
– 自分で本や文書を持ってきたひとは,自分がもってきたものでやって結構です.
•
スキャンしたページを、OCR eTypist でテキストにしてください.
– 結果は一つのテキストファイルにして,デスクトップにある「2016情報技術演
習I SV600」, 「2016情報技術演習I IX500」というフォルダに置いてください.
ただし,ファイル名を
• 自分の学籍番号名前.txt のようにしてください.
– 例えば,0100243333西田幾多郎.txt
• これで課題提出となります.
• OCRはかなり読みを間違います.この誤認識は気にしなくて結構です.
休講
• 来週5月19日は東京出張のため休講です.