情報技術演習Ⅰ 人文学研究のための情報技術入門 2012/11/01 担当：林晋 TA:秋田慧 2009/10/14 今回のテーマ OCR の使い方 2009/10/14 文書とOCR • 「文書」という言葉には色々な意味があります．コンピュータ上では， “aaa.txt”, “bbb.doc” などの文書がありますし，“20100506.ppt” というファイルも「PowerPoint の文書」と呼ばれることがあります．これらはSJIS, Unicode などの文字コードで文を表現していますので，コード化文書と呼べるでしょう（一般的用語がないので，林が作った言葉です）． • 紙の上のインクや看板上のペンキ，石碑上の凹み，などの物理的模様による文書を物理的文書ということにしましょう．皆さんが見ているモニタ（ディスプレィ）上の，この文書も物理的文書と言えるでしょう． • また，物理的文書をデジカメで撮影して作った “aaa.jpg” “bbb.bmp”などの電子画像を画像化文書(正確には電子画像化文書）と呼びましょう． • OCR とは画像化文書をコード化文書に変換することだといえます．物理的文書を画像化して画像化文書にするのにはデジカメやスキャナーを使います． 2009/10/14 自炊 • 大量の書物を読んでレポートを書く，卒論を書く，研究する場合，それが Google Books の書籍のように検索できると大変便利 • また検索ができなくても，書籍がデジタル画像になっていれば，大量の本を軽々ともち運ぶことができる． • 本棚も不必要になり省スペースになる • それらを可能にするのが，いわゆる自炊 • 本を解体したりして，スキャナーで電子画像にし，PDFファイルなどにまとめることを自炊という． • 注意！！！ – これは自分だけのためにやるのならば問題がないが，人に渡してしまったりすると著作権侵害となる（らしい）ので注意！！ – これからやる演習の結果も，林への課題提出以外では，決して他人に渡してはいけません 2009/10/14 自炊のやり方を書いたWEBページ • http://wikiwiki.jp/bookjisui/ • http://ushigyu.net/2012/03/01/jisui_q_and_a _by_jisui_blogger/ • http://bizmakoto.jp/bizid/articles/1006/01/ne ws031.html • http://pc.watch.impress.co.jp/docs/topic/feat ure/20110218_426830.html 2009/10/14 二つの方法 • 今日は，自炊を行う二つの手段を実際にやってもらいます． • そして，その結果のPDFファイルとHTMLファイルが提出すべき課題となります． • 注意：自炊の方法はほかにも色々ある．しかし，ここで紹介するのは典型的ケース． 2009/10/14 専用ブックスキャナを使う方法 • 本をフラットベッドスキャナーと呼ばれる廉価なスキャナーでスキャンして電子画像にしようとすると，厚い本の場合，真ん中あたりが曲がってスキャンされる． • さらには真ん中に黒い帯が入ってしまい，場合によっては，文字が読めない場合もある．これはコピー機の場合と同じ． • これを防ぐために，作られたフラットベッドスキャナー • 本の中央をスキャナの端にあててスキャンしてもコピーができる． – 普通のスキャナは，周りに余裕を持たせてあるので，そうやると真ん中が欠けてスキャンされる． 2009/10/14 長所と短所 • 長所 – 本を分解しなですむ． • 不必要なら古本として売れば良い． • 短所 – ページごとに上下が交代する． – やすいといっても，兎に角，スキャナを買わなくてはならない． 2009/10/14 本を解体する方法 • 本を裁断して，ドキュメントスキャンという，文書専用スキャナで読み込む． • 長所と短所 – 短所：本がバラバラ．捨てることになる． – 長所：裁断さえできれば，読み込み（スキャン）は簡単かつ速い – 短所：裁断は裁断機のよいものがない場合は大変 2009/10/14 裁断の事例集 • • • • • • • http://www.youtube.com/watch?v=pYBLZUKB0Uw http://www.youtube.com/watch?v=6D_6unB4X6c&feature=related http://www.youtube.com/watch?v=RD2EmcgVRR8&feature=related ディスクカッター http://www.youtube.com/watch?v=wJ5Lefyx26E&feature=related http://www.youtube.com/watch?v=G7i9E4XovMw&feature=related 置き場所にさえ困らなければ，比較的安い裁断機がある． – それを実習で使ってみる． – 指などを怪我しないように切り落とさないように注意！！！ 2009/10/14 実際にやってみよう • ここから席を立って，前に集まってください． • まず，林がやってみせます．その後で，それぞれの PCに適当に分かれて，各自，自分で実際にやってみてください． 2009/10/14 OpticBook 4600での自炊 • 「言語都市・ベルリン 1861‐1945」のどこでもよいから，自分の好きな４ページをスキャンしてみる. （本を置いて Scan ボタンを押すだけ） – 自分で本や文書を持ってきたひとは，この本ではなくて，自分がもってきたものでやっても結構です． • 結果はデスクトップにあるPlustek というフォルダ内にできる． • できたファイルは，文書ー＞OCRテキスト認識というコマンドで Acrobat の OCRで認識させる．これにより，その文書は Google Books の本のように検索可能となる． • そこまで出来たら，自分のUSBディスクにコピーする． • そして，後の人のために，コピーしたファイルは消しておく（混同しないため） • できた人は，USBディスクを林のところまで持ってきてください．できたPDF ファイルを林が自分のPCにコピーすれば提出完了です． 2009/10/14 ScanSnap S1500 による自炊 • That Noble Dream を裁断 – • • • • • • • • • 危ないので，この部分だけは林が横でアテンドして行いますひとりあたり20ページ（10枚）を，ScanSnapでスキャンします．（用紙をセットし，Scan ボタンを押す）スキャンが始まり，結果でたら Scan Snap Organizer というソフトが自動的に開き，読み込んだページの画像が作られている． File をカット＆ペーストで，デスクトップに移動させる．デスクトップに eTypistといスキャンソフトウェアへのリンクがあるので，それをクックして， eTypistを起動する．先ほどのPDFファイルを eTypistに，ドラッグすると，読み込みが始まる．読み込みが完了したら，1ページ目を選び，「認識」というボタンを押す．そうすると，1ページのOCR処理が起動され，結果が，eTypistのウィンドウに表示される．この認識された1ページを，HTMLとして保存する．その保存したHTMLファイルが提出すべき課題．できたものは，USBディスクにコピーして，林に提出してください． 2009/10/14