情報技術演習Ⅰ 人文学研究のための情報技術入門

情報技術演習Ⅰ
人文学研究のための情報技術入門
2011/11/10
担当:林晋
TA:秋田慧
2009/10/14
今回のテーマ
A) OCR の使い方
B) デジカメ・PCで研究資料を収集:史料研究デジカメ
革命の時代
C1)研究の現場から(現代文化系の例から)
C2)林の撮影の仕方の実演.
2009/10/14
画面キャプチャ
• Google Booksでは著作権の切れていない書籍はブラウザーで読むことは
できても,ダウンロードやカットアンドペーストはできません.
– 気が付かなかったかも知れませんが,限定表示の場合は, 全文表示の場合にあるダ
ウンロードのリンク(Plain text, Download)が現れません.
• しかし,物理的文書同様,兎に角,見えているのですから,画像化文書
にできればOCRでコード化できるはずです.
• これを実際に行うときに便利なのが「画面キャプチャ」のツールです.一
番簡単な画面キャプチャの方法は Windows を使う方法です.PrintScreen
(PrtScn)というキーを押すと画面全体の画像がクリップボードにコピーされ
るので,たとえば Paintを起動して([スタート]→[プログラム]→[アクセサリ
]→[ペイント]),編集の「貼り付け」をすると,全画面の画像が貼り付けら
れます.また,Alt+PrtScn だと,今,アクティブになっているウィンドウの画
像がクリップボードにコピーされます.
2009/10/14
文書とOCR
• 「文書」という言葉には色々な意味があります.コンピュータ上では,
“aaa.txt”, “bbb.doc” などの文書がありますし,“20100506.ppt” というファ
イルも「PowerPoint の文書」と呼ばれることがあります.これらはSJIS,
Unicode などの文字コードで文を表現していますので,コード化文書と呼
べるでしょう(一般的用語がないので,林が作った言葉です).
• 紙の上のインクや看板上のペンキ,石碑上の凹み,などの物理的模様に
よる文書を物理的文書ということにしましょう.皆さんが見ているモニタ
(ディスプレィ)上の,この文書も物理的文書と言えるでしょう.
• また,物理的文書をデジカメで撮影して作った “aaa.jpg” “bbb.bmp”など
の電子画像を画像化文書(正確には電子画像化文書)と呼びましょう.
• OCR とは画像化文書をコード化文書に変換することだといえます.物理
的文書を画像化して画像化文書にするのにはデジカメやスキャナーを使
います.
2009/10/14
実際にやってみよう
• ここから席を立って,前に集まってください.
• まず,林がやってみせます.その後で,それぞれの
PCに適当に分かれて,各自,自分で実際にやって
みてください.
2009/10/14
画面キャプチャ・ツールと OCRの連動
• 無料,シェアウェア,有料の画面キャプチャを使うともっと色
々なことできます.たとえばディスプレー上の文書の領域を
矩形で指定し,それを自分で指定したOCRソフトに送ることも
できます.つまり,画面上の「画像として見える文章」ならば,
何でも(正確には殆どの場合),OCRにかけられるのです.
• 画面キャプチャのツールは一般に廉価ですが,無料やシェア
ウェアでも十分性能が良いものもあります.たとえば,
WinShot は無料ですが,色々な機能をもっており,キャプチャ
した画像をOCRなどのアプリに自動的に送ることもできます.
2009/10/14
フリー・ソフト,シェアウェアを活用する
• WinShot のような無料のソフトを,無料ソフト,フリー・ソフトと
いいます.また,ただで使えるが,気に入った人からはお金
を徴収する(寄付?,大道芸のような感じ)場合を,シェアウェ
アと言います.
• http://www.forest.impress.co.jp/lib/pic/piccam/capture/ に
そういうソフトのリストがあり,ダウンロードできる場所へのリ
ンクもあります.このサイト,「窓の杜」
http://www.forest.impress.co.jp には,多くのフリーソフト,シ
ェアウェア,有料ソフトが登録されており,ダウンロードできる
ようになっています.何かツールが必要なとき,まず,ここを
見るようにしましょう.
2009/10/14
ただし,OCR は・・・
• 機能面などで贅沢を言わなければ大抵は無料ソフトで済む時代になって
います.たとえば,MS Office (Word, Excel, …)の代わりをする Open Office
という無料ツールは有名です.
http://www.forest.impress.co.jp/lib/offc/document/offcsuite/openoffice.html
• しかし,そういう時代でもOCRは例外です.日本語のOCR でチャンと使え
る無料のものは,今のところSmartOCR http://ocr.rossa.cc/ しかないようで
す.しかし,これを作っていた会社は潰れたので,バリバリ使うのは難し
い状況です.
• OCR を使いたい場合は,購入する,スキャナーやAcrobat などに附属で
ついてくるOCRを使う,のどちらかしか良い方法はありません.
• 欧文の場合は,SimpleOCR など幾つか有名なフリーOCRソフトがあり,
Google Book Search でもドイツ文字の認識にフリーOCR Tesseract が使わ
れています.
• 特に Simple OCR は良くできていて,続け字でなければ手書きでも認識し
ます.(ただし,日本語は活字も認識しません.)
2009/10/14
この部屋ではもうひとつ問題が...
• フリーなOCRソフト SimpleOCR や SmartOCR をダウンロードして,サテライ
ト室(演習をやっえているこの部屋)のPCにインストールしてみてください.
そうすると,...
• ...失敗します.例え,自分のUSBディスクにインストールしようとしても
失敗します.自分のUSBディスクならば勝手に書き込めるはずなのに,
インストールができません.
• これはこれらのソフトをインストールする際に,レジストリという管理者し
か書き換えられないファイルを変更する必要があるからです.この部屋で
はレジストリは変更不可能です.すべてのソフトがそうではありませんが,
多くのソフトはインストールの際にレジストリを変更します.
• ということで,残念ながらOCRはこの部屋での実習は難しいので,これで
終わりにします.各自は自分のPCなどで試してみてください.
2009/10/14
デジカメ・PCで研究資料を収集:
史料研究デジカメ革命の時代
• ここでOCRから離れ,物理的文書を画像化文書にする,そして,それをPCで整
理するという,今,多くの歴史家がマイクロフィルなどの変わりに使い始めている
方法を紹介します.
• 一次資料(史料)を研究対象にする歴史研究者にとって,デジカメの登場は大変
な朗報でした.デジカメ登場以前は,マイクロフィル業者に頼むしか良い方法はあ
りませんでした.しかし,これはかなり高いのです.
• ところが高解像度のデジカメが登場して,この10年くらいで資料調査の姿はかな
り変わってしまいました.
• デジカメ,電子化文書,PCのインパクト!
•
•
•
現代文化系の3人の歴史研究者,小野沢(米国政治史),永井(日本近代史),林(近現
代科学技術史,思想史)の研究の実例を説明します.長くなるので,WEBページにま
とめました.これを見ながら説明をします.
永井先生のグループは何回か後にみなさんに使ってもらうSMART-GSで倉富勇三郎日
記を翻刻し出版しています。
そして,林が群馬大図書館で京都学派の哲学者田辺元の史料を調査するときの撮影
方法を再現してみせます.
2009/10/14
デジカメ,電子化文書,PCのインパクト
1. 研究の現場から(現代文化系の例を中心に)
2. 特殊文庫(貴重書)
• 京大文学部の特殊文庫
• 京都学派に関連した特殊文庫
– 群馬大田辺元文庫
– 法政大学,三木清文庫,戸坂潤文庫
2009/10/14