情報技術演習Ⅰ 人文学研究のための情報技術入門

情報技術演習Ⅰ
人文学研究のための情報技術入門
2014/05/01
担当:林晋
TA:橋本雄太
今回のテーマ
OCR の使い方
文書とOCR
• 「文書」という言葉には色々な意味があります.コンピュータ上では,
“aaa.txt”, “bbb.doc” などの文書がありますし,“20140501.ppt” というファ
イルも「PowerPoint の文書」と呼ばれることがあります.これらはSJIS,
Unicode などの文字コードで文を表現していますので,コード化文書と呼
べるでしょう(一般的用語がないので,林が作った言葉です).
• 紙の上のインクや看板上のペンキ,石碑上の凹み,などの物理的模様に
よる文書を物理的文書ということにしましょう.皆さんが見ているモニタ
(ディスプレィ)上の,この文書も物理的文書と言えるでしょう.
• また,物理的文書をデジカメで撮影して作った “aaa.jpg” “bbb.bmp”など
の電子画像を画像化文書(正確には電子画像化文書)と呼びましょう.
• OCR とは画像化文書をコード化文書に変換することだといえます.物理
的文書を画像化して画像化文書にするのにはデジカメやスキャナーを使
います.
三つの方法
• 今日は,自炊を行う三つの手段を実際にやっ
てもらいます.
• そして,その結果のPDFファイルとHTMLファイ
ルが提出すべき課題となります.
• 注意:自炊の方法はほかにも色々ある.しか
し,ここで紹介するのは典型的ケース.
自炊
• 大量の書物を読んでレポートを書く,卒論を書く,研究する場合,それが
Google Books の書籍のように検索できると大変便利
• また検索ができなくても,書籍がデジタル画像になっていれば,大量の本
を軽々ともち運ぶことができる.
• 本棚も不必要になり省スペースになる
• それらを可能にするのが,いわゆる自炊
• 本を解体したりして,スキャナーで電子画像にし,PDFファイルなどにまと
めることを自炊という.
• 注意!!!
– これは自分だけのためにやるのならば問題がないが,人に渡してしまったりすると著
作権侵害となる(らしい)ので注意!!
– これからやる演習の結果も,林への課題提出以外では,決して他人に渡してはいけま
せん
自炊のやり方を書いたWEBページ
• http://wikiwiki.jp/bookjisui/
• http://ushigyu.net/2012/03/01/jisui_q_and_a
_by_jisui_blogger/
• http://bizmakoto.jp/bizid/articles/1006/01/ne
ws031.html
• http://pc.watch.impress.co.jp/docs/topic/feat
ure/20110218_426830.html
専用ブックスキャナを使う方法
• 本をフラットベッドスキャナーと呼ばれる廉価なスキャナーで
スキャンして電子画像にしようとすると,厚い本の場合,真ん
中あたりが曲がってスキャンされる.
• さらには真ん中に黒い帯が入ってしまい,場合によっては,
文字が読めない場合もある.これはコピー機の場合と同じ.
• これを防ぐために,作られたフラットベッドスキャナー
• 本の中央をスキャナの端にあててスキャンしてもコピーがで
きる.
– 普通のスキャナは,周りに余裕を持たせてあるので,そう
やると真ん中が欠けてスキャンされる.
長所と短所
• 長所
– 本を分解しなですむ.
• 不必要なら古本として売れば良い.
• 短所
– ページごとに上下が交代する.
– やすいといっても,兎に角,スキャナを買わなくて
はならない.
本を解体する方法
• 本を裁断して,ドキュメントスキャナという,文
書専用スキャナで読み込む.
• 長所と短所
– 短所:本がバラバラ.捨てることになる.
– 長所:裁断さえできれば,読み込み(スキャン)は
簡単かつ速い
– 短所:裁断は裁断機のよいものがない場合は大
変
裁断の事例集
•
•
•
•
•
•
•
http://www.youtube.com/watch?v=pYBLZUKB0Uw
http://www.youtube.com/watch?v=6D_6unB4X6c&feature=related
http://www.youtube.com/watch?v=RD2EmcgVRR8&feature=related
ディスクカッター
http://www.youtube.com/watch?v=wJ5Lefyx26E&feature=related
http://www.youtube.com/watch?v=G7i9E4XovMw&feature=related
置き場所にさえ困らなければ,比較的安い裁断機がある.
融合型:一度コピーする方法
• 普通のフラットベッド・スキャナは、コピー機に
比べて、一枚をスキャンする時間が長い。
• そこで本をコピーするときと同様、一度、コピ
ー機でコピーを作り、それをドキュメント・スキ
ャナにかけるという方法もあります。
• これは紙のコピーも作っておきたいときには
便利な方法ですが、コピー代がかかるという
短所があります。
オーバーヘッド・スキャナ
ScanSnap SV600 (1/4)
• 以上、紹介してきた方法で本、特に厚みのあ
る本をスキャンするのは、いずれにしてもか
なり大変でした。
• しかし、昨年、オーバーヘッド・スキャナ
ScanSnap SV600 というものが発売されて、状
況が大きく変わりました。
• まず、そのデモ画像を見ます:
• https://www.youtube.com/watch?v=j9oeXiNqIDk
オーバーヘッド・スキャナ
ScanSnap SV600 (2/4)
• 撮影用無反射ガラスを使うと良い:押さえ指のソフトによる削除は面倒だ
し、指で両端を抑えたのでは、本中央の盛り上がりは抑えられず、そのた
めに画像がどうしても歪む。無反射ガラスを使って、それで押さえて撮影
する方が良い結果が得られる。今日の演習でも、無反射ガラスを使う。
• 無反射ガラスとは
– http://www.glass-dictionary.com/14/
– 写真撮影に良く使われるので、例えば、京都駅前のヨドバシカメラなどで簡単
に買える。
– ヨドバシのオンライショップでも: 半切りサイズで大抵の本や史料のスキャン
には十分。
– 透明アクリル板で代用できることもあるが、透明アクリル板は、天井灯の反射
が映り込むことが多い。
• ページめくり検出でなく、ボタンを一回一回押す方が実用的。ボタンは大
きく、苦にならず、おそらく、慣れると、その方が速い。特に無反射ガラス
を使う場合はそう。
オーバーヘッド・スキャナ
ScanSnap SV600 (3/4)
• 長所
– 安い、小さい、軽い: 4万円台、210x156x383、3kg
• この様なスキャナは以前から業務用として販売されていました。
しかし、それは数十万円もする大きくて重い機械でした。
• それが個人でも買えて、何時もは、小さくしまっておけるようにな
り、調査旅行にも持っていける(キャリングケースがついている)
ようになったところが、歴史家の目からすると革命的なのです。
– 天井の照明の映り込みを気にしないで済む。
• 次回の「デジカメによる史料撮影の方法」の紹介で詳しく説明する
が、高精度史料撮影の最大の難関は、史料を押さえるために使
う無反射ガラスに、天井の照明が映り込んでしまうこと。これは特
に、出張して撮影するときに大きな問題となる。
• SV600は自ら発光してスキャンするので、天井の照明をオフにす
ることができる
オーバーヘッド・スキャナ
ScanSnap SV600 (2/3)
• 短所
– 不十分な精度: 個人で自炊するとか、歴史史料を撮影し
てきて研究する場合、つまり、自分だけのために撮影する
には、十分な精度がある。しかし、たとえば、京都学派ア
ーカイブのような公開されたアーカイブのための画像を作
る場合には、現在のWEBアーカイブに求められている画
像精度に達していない。
– スピード: 群馬大学図書館の田辺元史料で、昨年秋に、
林が実際にデジカメとSV600で撮影とスキャンをしてみた
ときの記録:林晋ブログ記事2013年11月18日
• デジカメ撮影より若干遅い。現代史の研究者は、一日に数百の
画像を撮ることは普通。千を超えることも珍しくはない。そういう場
合には遅すぎる。
実際にやってみよう
• 説明を完了した後,前に集まってもらいます.
• そして、まず,林と橋本がスキャン+OCR使用をやっ
てみせます.その後で,それぞれのPCに適当に分
かれて,各自,自分で実際にやってみてください.そ
れが今日の課題です.
• スキャナは3種類.三種類すべてやってください.お
そらく時間が足りないと思いますが、その場合は次
回も、同じ演習を行います。
OCRは e-typist を使用
• OCR は三つのPCとも e-typist を使います.
– YouTube の画像にように,スキャナのボタンを使う方法もあるのです
が,今回は e-typist からスキャナを呼び出してスキャンする方法で行
います.
– これはソフト役割を理解できるようにする教育上の配慮なので、現実
にスキャナを使う場合は、マネする必要はありません。
• それぞれのPC+スキャナの周りに集まり, 林か橋本の説明
を聞いてください.
• どの順番でやっても構いませんが, 待ち時間を考慮してスキ
ャナを選択ください. 使い方の説明は必要に応じて繰り返し
ます.
課題(提出要):ScanSnap S1500 による自炊
• That Noble Dream を裁断したものを利用
– なれていないと危ないので,この部分だけは、既に裁断してあるものを使います。
•
ひとりあたり数ページをScanSnapでスキャンしてOCRでテキストにしてください.
– スキャンのためには, eTypist を使ってください.詳しい使い方は林か橋本が
説明します.
– 結果は何ページ読んだ場合でも,一つのテキストファイルか HTMLファイルに
して,デスクトップにある「情報技術演習提出用」というフォルダに置く. ただ
し,ファイル名を
• 自分の名前学籍番号.txt のようにしてください.
– 例えば,西田幾多郎0100243333.txt
• これで課題提出となります.
• OCRはかなり読みを間違います.この誤認識は気にしなくて結構です.
課題(提出要): OpticBook 4600での自炊
• That Noble Dream の、まだ裁断してない部分を利用します。そのどこでもよい
から,自分の好きなページを幾つかスキャンしてください.
– 自分で本や文書を持ってきたひとは,この本ではなくて,自分がもってきたものでやっ
て結構です.
•
ひとりあたり数ページを OpticBook でスキャンしてOCR eTypist でテキストにしてく
ださい.
– 詳しい使い方は林か橋本が説明します.
– 結果は何ページ読んだ場合でも,一つのテキストファイルか HTMLファイルに
して,デスクトップにある「情報技術演習提出用」というフォルダに置く. ただ
し,ファイル名を
• 自分の名前学籍番号.txt のようにしてください.
– 例えば,西田幾多郎0100243333.txt
• これで課題提出となります.
• OCRはかなり読みを間違います.この誤認識は気にしなくて結構です.
課題(提出要): ScanSnap SV600 での自炊
• 現代史の永井和先生の著作を利用します。そのどこでもよいから,自分の
好きなページを幾つかスキャンしてください.
– 自分で本や文書を持ってきたひとは,この本ではなくて,自分がもってきたものでやっ
て結構です.
•
ひとりあたり数ページを SV600 でスキャンしてOCR eTypist でテキストにしてくださ
い.
– 詳しい使い方は林か橋本が説明します.
– 結果は何ページ読んだ場合でも,一つのテキストファイルか HTMLファイルに
して,デスクトップにある「情報技術演習提出用」というフォルダに置く. ただ
し,ファイル名を
• 自分の名前学籍番号.txt のようにしてください.
– 例えば,西田幾多郎0100243333.txt
• これで課題提出となります.
• OCRはかなり読みを間違います.この誤認識は気にしなくて結構です.