情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/04/30 担当:林晋 TA:橋本雄太 今回のテーマ OCR の使い方 文書とOCR • 「文書」という言葉には色々な意味があります.コンピュータ上では, “aaa.txt”, “bbb.doc” などの文書がありますし,“20150430.ppt” というファ イルも「PowerPoint の文書」と呼ばれることがあります.これらはSJIS, Unicode などの文字コードで文を表現していますので,コード化文書と呼 べるでしょう(一般的用語がないので,林が作った言葉です). • 紙の上のインクや看板上のペンキ,石碑上の凹み,などの物理的模様に よる文書を物理的文書ということにしましょう.皆さんが見ているモニタ (ディスプレィ)上の,この文書も物理的文書と言えるでしょう. • また,物理的文書をデジカメで撮影して作った “aaa.jpg” “bbb.bmp”など の電子画像を画像化文書(正確には電子画像化文書)と呼びましょう. • OCR とは画像化文書をコード化文書に変換することだといえます.物理 的文書を画像化して画像化文書にするのにはデジカメやスキャナーを使 います. 幾つかの方法 • 今日は,自炊を行う幾つかの手段を実際に やってもらいます. • そして,その結果のPDFファイルとHTMLファイ ルが提出すべき課題となります. • 注意:自炊の方法はほかにも色々ある.しか し,ここで紹介するのは典型的ケース. 自炊 • 大量の書物を読んでレポートを書く,卒論を書く,研究する場合,それが Google Books の書籍のように検索できると大変便利 • また検索ができなくても,書籍がデジタル画像になっていれば,大量の本 を軽々ともち運ぶことができる. • 本棚も不必要になり省スペースになる • それらを可能にするのが,いわゆる自炊 • 本を解体したりして,スキャナーで電子画像にし,PDFファイルなどにまと めることを自炊という. • 注意!!! – これは自分だけのためにやるのならば問題がないが,人に渡してしまったりすると著 作権侵害となる(らしい)ので注意!! – これからやる演習の結果も,林への課題提出以外では,決して他人に渡してはいけま せん 自炊のやり方を書いたWEBページ • http://wikiwiki.jp/bookjisui/ • http://ushigyu.net/2012/03/01/jisui_q_and_a _by_jisui_blogger/ • http://bizmakoto.jp/bizid/articles/1006/01/ne ws031.html • http://pc.watch.impress.co.jp/docs/topic/feat ure/20110218_426830.html 専用ブックスキャナを使う方法 • 本をフラットベッドスキャナーと呼ばれる廉価なスキャナーで スキャンして電子画像にしようとすると,厚い本の場合,真ん 中あたりが曲がってスキャンされる. • また曲がるだけでなくて真ん中に黒い帯が入ってしまって, 文字が読めない場合もある.これはコピー機の場合と同じ. • これを防ぐために,作られたブックスキャナと呼ばれるフラッ トベッドスキャナーがあり,本の中央をスキャナの端にあてて スキャンしてもコピーができる様に作られている. – 普通のスキャナは,周りに余裕を持たせてあるので,そう やると真ん中が欠けてスキャンされる. 長所と短所 • 長所 – 本を分解しないですむ. • 不必要なら古本として売れば良い. • 短所 – ページごとに上下が交代する. – かなり手間がかかる. – 本のスキャン用の特別なスキャナを買わなくては ならない. 本を解体する方法 • 本を裁断して,ドキュメントスキャナという,文 書専用スキャナで読み込む. • 長所と短所 – 短所:本がバラバラ.捨てることになる. – 長所:裁断さえできれば,読み込み(スキャン)は 簡単かつ速い – 短所:裁断は裁断機のよいものがない場合は大 変 裁断の事例集 • • • • • • • http://www.youtube.com/watch?v=pYBLZUKB0Uw http://www.youtube.com/watch?v=6D_6unB4X6c&feature=related http://www.youtube.com/watch?v=RD2EmcgVRR8&feature=related ディスクカッター http://www.youtube.com/watch?v=wJ5Lefyx26E&feature=related http://www.youtube.com/watch?v=G7i9E4XovMw&feature=related 置き場所にさえ困らなければ,比較的安い裁断機がある. 融合型:一度コピーする方法 • 普通のフラットベッド・スキャナは,コピー機に 比べて,一枚をスキャンする時間が長い. • そこで本をコピーするときと同様,一度,コピ ー機でコピーを作り,それをドキュメント・スキ ャナにかけるという方法もあります. • これは紙のコピーも作っておきたいときには 便利な方法ですが,コピー代がかかるという 短所があります. オーバーヘッド・スキャナ ScanSnap SV600 (1/4) • 以上,紹介してきた方法で本,特に厚みのあ る本をスキャンするのは,いずれにしてもか なり大変でした. • しかし,一昨年,オーバーヘッド・スキャナ ScanSnap SV600 というものが発売されて,状 況が大きく変わりました. • まず,そのデモ画像を見ます: • https://www.youtube.com/watch?v=j9oeXiNqIDk オーバーヘッド・スキャナ ScanSnap SV600 (2/4) • 撮影用無反射ガラスを使うと良い:押さえ指のソフトによる削除は面倒だ し,指で両端を抑えたのでは,本中央の盛り上がりは抑えられず,そのた めに画像がどうしても歪む. 無反射ガラスを使って,それで押さえて撮影 する方が良い結果が得られる. 今日の演習でも,無反射ガラスを使う. • 無反射ガラスとは – http://www.glass-dictionary.com/14/ – 写真撮影に良く使われるので,例えば,京都駅前のヨドバシカメラなどで簡単 に買える. – ヨドバシのオンライショップでも: 半切りサイズで大抵の本や史料のスキャン には十分. – 透明アクリル板で代用できることもあるが,透明アクリル板は,天井灯の反射 が映り込むことが多い. • ページめくり検出でなく,ボタンを一回一回押す方が実用的. ボタンは大 きく,苦にならず,おそらく,慣れると,その方が速い. 特に無反射ガラス を使う場合はそう. オーバーヘッド・スキャナ ScanSnap SV600 (3/4) • 長所 – 安い,小さい,軽い: 5万円台,210x156x383,3kg • この様なスキャナは以前から業務用として販売されていました. し かし,それは数十万円もする大きくて重い機械でした. • それが個人でも買えて,何時もは,小さくしまっておけるようにな り,調査旅行にも持っていける(キャリングケースがついている) ようになったところが,歴史家の目からすると革命的なのです. – 天井の照明の映り込みを気にしないで済む. • 次回の「デジカメによる史料撮影の方法」の紹介で詳しく説明する が,高精度史料撮影の最大の難関は,史料を押さえるために使 う無反射ガラスに,天井の照明が映り込んでしまうこと. これは特 に,出張して撮影するときに大きな問題となる. • SV600は自ら発光してスキャンするので,天井の照明をオフにす ることができる オーバーヘッド・スキャナ ScanSnap SV600 (4/4) • 短所 – 不十分な精度: 個人で自炊するとか,歴史史料を撮影し てきて研究する場合,つまり,自分だけのために撮影する には,十分な精度がある. しかし,たとえば,京都学派ア ーカイブのような公開されたアーカイブのための画像を作 る場合には,現在のWEBアーカイブに求められている画 像精度に達していない. – スピード: 群馬大学図書館の田辺元史料で,昨年秋に, 林が実際にデジカメとSV600で撮影とスキャンをしてみた ときの記録:林晋ブログ記事2013年11月18日 • デジカメ撮影より若干遅い. 現代史の研究者は,一日に数百の画 像を撮ることは普通. 千を超えることも珍しくはない. そういう場合 には遅すぎる. 実際にやってみよう • 説明を完了した後,前に集まってもらいます. • そして,まず,林と橋本がスキャン+OCR使用をやっ てみせます.その後で,それぞれのPCに適当に分 かれて,各自,自分で実際にやってみてください.そ れが今日の課題です. • スキャナは2種類.2種類の両方をやってください. おそらく時間が足りないと思いますが,その場合は 次回も,同じ演習を行います. OCRは e-typist を使用 • OCR は二つのPCとも e-typist というソフトを使います. – スキャナに自動的にOCRをかけさせる方法もあります.実際, ScanSnapが作ったPDFファイルは自動的にOCRがかけられて検索可 能になっています.しかし,その精度が低いのと,また,これではOCR がどんなものなのか分かりにくいので,今回はわざわざ e-typist に PDFファイルを読ませる方法でテキスト化を行います. • それぞれのPC+スキャナの周りに集まり, 林か橋本の説明 を聞いてください. • どの順番でやっても構いませんが, 待ち時間を考慮してスキ ャナを選択ください. 使い方の説明は必要に応じて繰り返し ます. 課題(提出要):ScanSnap S1300i による自炊 • That Noble Dream を裁断したものを読み込みます. – 裁断機は下手に使うと危ないので,既に裁断してあるものを使います. – スキャナは,読み込みのスピードが少し遅いものの,従来のScanSnapに比べて,廉価( 二万円代),計量・小型でカバンに入れて持ち運びさえできる,小型スキャナ ScanSnap S1300i を使います. – 自分で文書を持ってきたひとは,自分がもってきたものでやって結構です. • ひとりあたり数ページをScanSnapでスキャンしてOCRでテキストにしてください. – スキャンのためには, eTypist を使ってください.詳しい使い方は林か橋本が 説明します. – 結果は何ページ読んだ場合でも,一つのテキストファイルにして,デスクトッ プにある「情報技術演習提出用」というフォルダに置く. ただし,ファイル名を • 自分の名前学籍番号.txt のようにしてください. – 例えば,西田幾多郎0100243333.txt • これで課題提出となります. • OCRはかなり読みを間違います.この誤認識は気にしなくて結構です. 課題(提出要): ScanSnap SV600 での自炊 • こちらで用意した本(日本語)の,どこでもよいから,自分の好きなページ を幾つかスキャンしてください. – 自分で本や文書を持ってきたひとは,この本ではなくて,自分がもってきたものでやっ て結構です. • ひとりあたり数ページを SV600 でスキャンしてOCR eTypist でテキストにしてくださ い. – 詳しい使い方は林か橋本が説明します. – 結果は何ページ読んだ場合でも,一つのテキストファイルか HTMLファイルに して,デスクトップにある「情報技術演習提出用」というフォルダに置く. ただ し,ファイル名を • 自分の名前学籍番号.txt のようにしてください. – 例えば,西田幾多郎0100243333.txt • これで課題提出となります. • OCRはかなり読みを間違います.この誤認識は気にしなくて結構です. 無料でOCRを使う方法 • OCRのソフトはかなり安くなっていますが,それでも例えば etypist は2万円近くします. • 短い文書でしたら,Google のクラウドサービスを使ってテキ スト化することも可能です. • また,日本語のCORで十分な精度のものがないものの,フリ ーのツールを使うという方法もあります.たとえば,英語のフ リーのOCRツールは調べればすぐに見つかりますし,後で演 習で使う情報・史料学専修で開発しているツールSMART-GS を使えばグーグルが無料で配布しているOCRエンジン Tesseract を使って,市販ソフトより高いと思われる精度で英 文をテキスト化できます. • これらについては、後に学びます。
© Copyright 2024 ExpyDoc