情報技術演習Ⅰ 人文学研究のための情報技術入門

情報技術演習Ⅰ
人文学研究のための情報技術入門
2012/11/01
担当:林晋
TA:秋田慧
2009/10/14
今回のテーマ
OCR の使い方
2009/10/14
文書とOCR
• 「文書」という言葉には色々な意味があります.コンピュータ上では,
“aaa.txt”, “bbb.doc” などの文書がありますし,“20100506.ppt” というファ
イルも「PowerPoint の文書」と呼ばれることがあります.これらはSJIS,
Unicode などの文字コードで文を表現していますので,コード化文書と呼
べるでしょう(一般的用語がないので,林が作った言葉です).
• 紙の上のインクや看板上のペンキ,石碑上の凹み,などの物理的模様に
よる文書を物理的文書ということにしましょう.皆さんが見ているモニタ
(ディスプレィ)上の,この文書も物理的文書と言えるでしょう.
• また,物理的文書をデジカメで撮影して作った “aaa.jpg” “bbb.bmp”など
の電子画像を画像化文書(正確には電子画像化文書)と呼びましょう.
• OCR とは画像化文書をコード化文書に変換することだといえます.物理
的文書を画像化して画像化文書にするのにはデジカメやスキャナーを使
います.
2009/10/14
自炊
• 大量の書物を読んでレポートを書く,卒論を書く,研究する場合,それが
Google Books の書籍のように検索できると大変便利
• また検索ができなくても,書籍がデジタル画像になっていれば,大量の本
を軽々ともち運ぶことができる.
• 本棚も不必要になり省スペースになる
• それらを可能にするのが,いわゆる自炊
• 本を解体したりして,スキャナーで電子画像にし,PDFファイルなどにまと
めることを自炊という.
• 注意!!!
– これは自分だけのためにやるのならば問題がないが,人に渡してしまったりすると著
作権侵害となる(らしい)ので注意!!
– これからやる演習の結果も,林への課題提出以外では,決して他人に渡してはいけま
せん
2009/10/14
自炊のやり方を書いたWEBページ
• http://wikiwiki.jp/bookjisui/
• http://ushigyu.net/2012/03/01/jisui_q_and_a
_by_jisui_blogger/
• http://bizmakoto.jp/bizid/articles/1006/01/ne
ws031.html
• http://pc.watch.impress.co.jp/docs/topic/feat
ure/20110218_426830.html
2009/10/14
二つの方法
• 今日は,自炊を行う二つの手段を実際にやっ
てもらいます.
• そして,その結果のPDFファイルとHTMLファイ
ルが提出すべき課題となります.
• 注意:自炊の方法はほかにも色々ある.しか
し,ここで紹介するのは典型的ケース.
2009/10/14
専用ブックスキャナを使う方法
• 本をフラットベッドスキャナーと呼ばれる廉価なスキャナーで
スキャンして電子画像にしようとすると,厚い本の場合,真ん
中あたりが曲がってスキャンされる.
• さらには真ん中に黒い帯が入ってしまい,場合によっては,
文字が読めない場合もある.これはコピー機の場合と同じ.
• これを防ぐために,作られたフラットベッドスキャナー
• 本の中央をスキャナの端にあててスキャンしてもコピーがで
きる.
– 普通のスキャナは,周りに余裕を持たせてあるので,そう
やると真ん中が欠けてスキャンされる.
2009/10/14
長所と短所
• 長所
– 本を分解しなですむ.
• 不必要なら古本として売れば良い.
• 短所
– ページごとに上下が交代する.
– やすいといっても,兎に角,スキャナを買わなくて
はならない.
2009/10/14
本を解体する方法
• 本を裁断して,ドキュメントスキャンという,文
書専用スキャナで読み込む.
• 長所と短所
– 短所:本がバラバラ.捨てることになる.
– 長所:裁断さえできれば,読み込み(スキャン)は
簡単かつ速い
– 短所:裁断は裁断機のよいものがない場合は大
変
2009/10/14
裁断の事例集
•
•
•
•
•
•
•
http://www.youtube.com/watch?v=pYBLZUKB0Uw
http://www.youtube.com/watch?v=6D_6unB4X6c&feature=related
http://www.youtube.com/watch?v=RD2EmcgVRR8&feature=related
ディスクカッター
http://www.youtube.com/watch?v=wJ5Lefyx26E&feature=related
http://www.youtube.com/watch?v=G7i9E4XovMw&feature=related
置き場所にさえ困らなければ,比較的安い裁断機がある.
– それを実習で使ってみる.
– 指などを怪我しないように切り落とさないように注意!!!
2009/10/14
実際にやってみよう
• ここから席を立って,前に集まってください.
• まず,林がやってみせます.その後で,それぞれの
PCに適当に分かれて,各自,自分で実際にやって
みてください.
2009/10/14
OpticBook 4600での自炊
• 「言語都市・ベルリン 1861‐1945」のどこでもよいから,自分の好きな4ペ
ージをスキャンしてみる. (本を置いて Scan ボタンを押すだけ)
– 自分で本や文書を持ってきたひとは,この本ではなくて,自分がもってきたものでやっ
ても結構です.
• 結果はデスクトップにあるPlustek というフォルダ内にできる.
• できたファイルは,文書ー>OCRテキスト認識というコマンドで Acrobat の
OCRで認識させる.これにより,その文書は Google Books の本のように
検索可能となる.
• そこまで出来たら,自分のUSBディスクにコピーする.
• そして,後の人のために,コピーしたファイルは消しておく(混同しないた
め)
• できた人は,USBディスクを林のところまで持ってきてください.できたPDF
ファイルを林が自分のPCにコピーすれば提出完了です.
2009/10/14
ScanSnap S1500 による自炊
•
That Noble Dream を裁断
–
•
•
•
•
•
•
•
•
•
危ないので,この部分だけは林が横でアテンドして行います
ひとりあたり20ページ(10枚)を,ScanSnapでスキャンします.(用紙をセットし,Scan ボタンを
押す)
スキャンが始まり,結果でたら Scan Snap Organizer というソフトが自動的に開き,読み込ん
だページの画像が作られている.
File をカット&ペーストで,デスクトップに移動させる.
デスクトップに eTypistといスキャンソフトウェアへのリンクがあるので,それをクックして,
eTypistを起動する.
先ほどのPDFファイルを eTypistに,ドラッグすると,読み込みが始まる.
読み込みが完了したら,1ページ目を選び,「認識」というボタンを押す.
そうすると,1ページのOCR処理が起動され,結果が,eTypistのウィンドウに表示される.
この認識された1ページを,HTMLとして保存する.
その保存したHTMLファイルが提出すべき課題.できたものは,USBディスクにコピーして,林
に提出してください.
2009/10/14