情報技術演習Ⅰ 人文学研究のための情報技術入門 2012/11/01 担当:林晋 TA:秋田慧 2009/10/14 今回のテーマ OCR の使い方 2009/10/14 文書とOCR • 「文書」という言葉には色々な意味があります.コンピュータ上では, “aaa.txt”, “bbb.doc” などの文書がありますし,“20100506.ppt” というファ イルも「PowerPoint の文書」と呼ばれることがあります.これらはSJIS, Unicode などの文字コードで文を表現していますので,コード化文書と呼 べるでしょう(一般的用語がないので,林が作った言葉です). • 紙の上のインクや看板上のペンキ,石碑上の凹み,などの物理的模様に よる文書を物理的文書ということにしましょう.皆さんが見ているモニタ (ディスプレィ)上の,この文書も物理的文書と言えるでしょう. • また,物理的文書をデジカメで撮影して作った “aaa.jpg” “bbb.bmp”など の電子画像を画像化文書(正確には電子画像化文書)と呼びましょう. • OCR とは画像化文書をコード化文書に変換することだといえます.物理 的文書を画像化して画像化文書にするのにはデジカメやスキャナーを使 います. 2009/10/14 自炊 • 大量の書物を読んでレポートを書く,卒論を書く,研究する場合,それが Google Books の書籍のように検索できると大変便利 • また検索ができなくても,書籍がデジタル画像になっていれば,大量の本 を軽々ともち運ぶことができる. • 本棚も不必要になり省スペースになる • それらを可能にするのが,いわゆる自炊 • 本を解体したりして,スキャナーで電子画像にし,PDFファイルなどにまと めることを自炊という. • 注意!!! – これは自分だけのためにやるのならば問題がないが,人に渡してしまったりすると著 作権侵害となる(らしい)ので注意!! – これからやる演習の結果も,林への課題提出以外では,決して他人に渡してはいけま せん 2009/10/14 自炊のやり方を書いたWEBページ • http://wikiwiki.jp/bookjisui/ • http://ushigyu.net/2012/03/01/jisui_q_and_a _by_jisui_blogger/ • http://bizmakoto.jp/bizid/articles/1006/01/ne ws031.html • http://pc.watch.impress.co.jp/docs/topic/feat ure/20110218_426830.html 2009/10/14 二つの方法 • 今日は,自炊を行う二つの手段を実際にやっ てもらいます. • そして,その結果のPDFファイルとHTMLファイ ルが提出すべき課題となります. • 注意:自炊の方法はほかにも色々ある.しか し,ここで紹介するのは典型的ケース. 2009/10/14 専用ブックスキャナを使う方法 • 本をフラットベッドスキャナーと呼ばれる廉価なスキャナーで スキャンして電子画像にしようとすると,厚い本の場合,真ん 中あたりが曲がってスキャンされる. • さらには真ん中に黒い帯が入ってしまい,場合によっては, 文字が読めない場合もある.これはコピー機の場合と同じ. • これを防ぐために,作られたフラットベッドスキャナー • 本の中央をスキャナの端にあててスキャンしてもコピーがで きる. – 普通のスキャナは,周りに余裕を持たせてあるので,そう やると真ん中が欠けてスキャンされる. 2009/10/14 長所と短所 • 長所 – 本を分解しなですむ. • 不必要なら古本として売れば良い. • 短所 – ページごとに上下が交代する. – やすいといっても,兎に角,スキャナを買わなくて はならない. 2009/10/14 本を解体する方法 • 本を裁断して,ドキュメントスキャンという,文 書専用スキャナで読み込む. • 長所と短所 – 短所:本がバラバラ.捨てることになる. – 長所:裁断さえできれば,読み込み(スキャン)は 簡単かつ速い – 短所:裁断は裁断機のよいものがない場合は大 変 2009/10/14 裁断の事例集 • • • • • • • http://www.youtube.com/watch?v=pYBLZUKB0Uw http://www.youtube.com/watch?v=6D_6unB4X6c&feature=related http://www.youtube.com/watch?v=RD2EmcgVRR8&feature=related ディスクカッター http://www.youtube.com/watch?v=wJ5Lefyx26E&feature=related http://www.youtube.com/watch?v=G7i9E4XovMw&feature=related 置き場所にさえ困らなければ,比較的安い裁断機がある. – それを実習で使ってみる. – 指などを怪我しないように切り落とさないように注意!!! 2009/10/14 実際にやってみよう • ここから席を立って,前に集まってください. • まず,林がやってみせます.その後で,それぞれの PCに適当に分かれて,各自,自分で実際にやって みてください. 2009/10/14 OpticBook 4600での自炊 • 「言語都市・ベルリン 1861‐1945」のどこでもよいから,自分の好きな4ペ ージをスキャンしてみる. (本を置いて Scan ボタンを押すだけ) – 自分で本や文書を持ってきたひとは,この本ではなくて,自分がもってきたものでやっ ても結構です. • 結果はデスクトップにあるPlustek というフォルダ内にできる. • できたファイルは,文書ー>OCRテキスト認識というコマンドで Acrobat の OCRで認識させる.これにより,その文書は Google Books の本のように 検索可能となる. • そこまで出来たら,自分のUSBディスクにコピーする. • そして,後の人のために,コピーしたファイルは消しておく(混同しないた め) • できた人は,USBディスクを林のところまで持ってきてください.できたPDF ファイルを林が自分のPCにコピーすれば提出完了です. 2009/10/14 ScanSnap S1500 による自炊 • That Noble Dream を裁断 – • • • • • • • • • 危ないので,この部分だけは林が横でアテンドして行います ひとりあたり20ページ(10枚)を,ScanSnapでスキャンします.(用紙をセットし,Scan ボタンを 押す) スキャンが始まり,結果でたら Scan Snap Organizer というソフトが自動的に開き,読み込ん だページの画像が作られている. File をカット&ペーストで,デスクトップに移動させる. デスクトップに eTypistといスキャンソフトウェアへのリンクがあるので,それをクックして, eTypistを起動する. 先ほどのPDFファイルを eTypistに,ドラッグすると,読み込みが始まる. 読み込みが完了したら,1ページ目を選び,「認識」というボタンを押す. そうすると,1ページのOCR処理が起動され,結果が,eTypistのウィンドウに表示される. この認識された1ページを,HTMLとして保存する. その保存したHTMLファイルが提出すべき課題.できたものは,USBディスクにコピーして,林 に提出してください. 2009/10/14
© Copyright 2024 ExpyDoc