情報技術演習Ⅰ 人文学研究のための情報技術入門

情報技術演習Ⅰ
人文学研究のための情報技術入門
2012/11/08
担当:林晋
TA:秋田慧
2009/10/14
デジカメ・PCで研究資料を収集:
史料研究デジカメ革命の時代1
• 現代の印刷物はOCRでPC上のテキストにできる。そのため、現代の印刷
物をPCに取り込むときは、前回やってもらったように、スキャナをつかい、
画像にして、さらにOCRソフトを使うのが標準的な方法。
• しかし、手書き文書のOCRは、特殊な場合(例えば、郵便番号)を除いて、
手書きの認識に成功していない。
• また、明治20年代以前の多くの日本語の印刷物は現代のOCRではうまく
処理できない。
– この時代以前の活字が中国製であり、それ以後の日本語の活字と異なるか
らだという説が有力。
• 日本語と違い英語の印刷物は17世紀のものでは、ほぼ問題なくOCRでテ
キスト化できる。すでにこの時代から標準化が進んでいたらしい。
• この日本語と英語の印刷物の違いは、まだちゃんと研究されたことはない
らしい。(詳しくわかると博士論文にもできるでしょう。)
2009/10/14
デジカメ・PCで研究資料を収集:
史料研究デジカメ革命の時代2
• そのため、その様な文書を歴史家が扱うときには、OCRなしで画像として
だけ扱うしかない。
• そういう時には、マイクロフィルム、マイクロフィッシュを使うのが、10年前く
らいのまでの標準的方法だった。
• そして、史料のマイクロフィルムの作成は、特殊なカメラや撮影方法、現
像工程を必要とするために、専門業者に依頼するしかなく、文書館・図書
館が、それを行い、歴史家は、マイクロフィルムのコピーを購入するか、そ
れを「焼いた」ハードコピーを購入するしかなった。これは1枚あたりのコス
トがかなり高かった。普通、コピー代より高い。
• そのため、どの史料を購入するかを決めるために、歴史家は史料館・図
書館などを訪問して、史料のオリジナルやマイクロフィルムを閲覧して、ど
の画像(マイクロフィルムやそのハードコピー)を買うかを決める必要が
あった。
2009/10/14
デジカメ・PCで研究資料を収集:
史料研究デジカメ革命の時代3
• また、マイクロフィルム化がなされていない史料の場合は、業者にマイク
ロフィルム化を依頼する必要があり、これはかなり高価だった。モノクロで
1枚あたり数十年が相場。
• ところが10年ほど前に、高解像度のデジカメが登場して,この資料調査の
常識が大きく変わった。
• 史料館・図書館が許可さえしてくれれば、歴史家が自ら、デジカメで史料
を撮影することが可能になった。
• デジカメ画像の利点
– 1枚あたりのラニングコストは、ほぼゼロ
– カラー画像である
– 「大きさゼロ」なので膨大な量の史料を簡単に持ちあるくことができる
• カラー画像という点を除けば、「自炊」をするのと同じ理由
2009/10/14
デジカメ・PCで研究資料を収集:
史料研究デジカメ革命の時代4
• このため、現在は次のどれかの方法が取られる
– 歴史家が自らデジカメで史料を電子化する
– 史料館・図書館などが史料をデジカメで電子化して、それ
を歴史家に売る。場合によっては無料で配布する。
• 無料の場合はWEBアーカイブが使われることが多い
– デジカメで撮影するのではなく、既存のマイクロフィルムを、電
子画像化する
– マイクロフィルムを焼いたハードコピーをスキャナで電子化する
2009/10/14
デジカメ時代の史料の実物
1. マイクロフィルム:回覧
–
林が群馬大学田辺文庫の史料を借りて業者に作成させたもの
2. マイクロフィルムの画像化:
–
3.
同じく群馬大学田辺文庫の史料を群馬大がマイクロフィルム化し、それを電子化して
WEBアーカイブにして無料で公開しているもの
デジカメ画像(カラー画像)
–
–
2と同じ文庫の史料(日記)を業者に依頼して撮影してもらったもので、WEBアーカイブ
「京都学派アーカイブ」として公開しているもの
同じ文庫の史料を林が自分で撮影したもの
4. マイクロフィルムを焼いたハードコピー(モノクロ):回覧
–
ドイツの数学者D.ヒルベルトの日記のマイクロフィルムを、林がドイツ、ゲッチンゲンの
大学図書館に赴いてオリジナルを確認した上でハードコピーを購入したもの
5. そのハードコピーをスキャナで電子画像化したもの
6. 同じ史料をゲッチンゲンの図書館がデジカメ画像として売っているのを、林が購
入したもの
2009/10/14
現代のデジタル史料の実際
– 現代文化系の3人の歴史研究者,小野沢(米国政治
史),永井(日本近代史),林(近現代科学技術史,
思想史)の研究の実例.長くなるので,WEBページ
にまとめました.これを見ながら説明をします.
• 永井先生のグループは後でみなさんに使ってもらうSMART-GSで倉富
勇三郎日記を翻刻し出版しています。
2009/10/14
新たな問題
• デジカメ史料の登場で新たな課題も生まれている
• それが膨大な数の画像をどうやって整理するかという問題
• 簡単に、しかも、ラニングコストほぼゼロで史料画像が作れると、つい沢
山作り過ぎてしまう
• また、撮影時には色々な理由で同じ史料を二度とったり、史料のページ
の順番を違えて撮影したり、ということが起きる
• また、画像ファイルには、普通は撮影時の日時や、撮影順の通し番号で
名前がつく
• これらのため、「不必要なものは消し、綺麗に並べ直し、統一的な名前(
ファイル名)をつける」という作業が必要
• 数が少なければ簡単だが、デジカメ画像は膨大な数に登るのが普通な
ので(ラニングコストが実質ゼロであるため)、この作業を手作業でやると
大変なことになる。数千画像は当たり前の世界なので…
2009/10/14
課題5
•
•
提出期限: 11月15日 18:00 ←来週です!
提出方法: [email protected] にメールで.
–
件名(subject)は必ず,“情報技術演習 課題5”とする.
•
•
課題を出し,やり方を部分的に説明し,後は皆さんにそれぞれ考えてもらいます.
http://www.shayashi.jp/s9lnfigsmall.zip は,先ほどの動画で撮影していた昭和9年京大文学部哲学教
室田辺元教授の特殊講義の記録です.おそらく講義参加者が勝手に作ったものと思われますが,田
辺哲学の研究の手がかりとなる貴重な史料です.(zip の意味は後で説明します.)
•
説明したとおり,本を保護するため奇数頁と偶数頁に分けて撮影しました.デジカメは画像に
IMG_0001.jpg , IMG_0002.jpgのような連番を撮影順につけますので,この連番の順と頁の順番が一
致しません.また,本が傾いていたことに気が付き,数頁を取り直した重複する画像や不必要な試し撮
り画像もあります.原因不明で連番が IMG_0002_1.jpg のようになっているものもあります.さらに厄介
なことに頁めくりの都合で,偶数頁は184頁から2頁へ逆順に撮影されています.
タスク(やること):画像のファイル名を,その画像が,たとえば23頁の場合は page023.jpg, 178頁の
場合は,page178.jpg となるようにつけかえなさい.その方法を書いて,上記の方法と期限に従って提
出してください.(頁数がない画像の名前は自分で工夫すること.)また,実際に名前を置き換えたもの
を(一つのフォルダに纏めて置いてください),次回以後の演習の際に直接見せてもらいます.
•
2009/10/14
手順は?
• それが課題ですから詳細は説明しません.
• しかし,その概略は次のようになります.
– 必要な画像,不必要な画像,新しいファイル名を
画像全部をチェック(画像の閲覧)して決定する.
– 画像を種類ごとに仕分ける.
– 名前を変える.
– 一つのフォルダに纏める.
2009/10/14
画像をチェックする方法
• 画像ビューワ: 画像閲覧のためのソフト.それらの多
くはレジストリを変更しないので,自分のUSBディスク
にインストールして使える:
– ViX
– Susie
– XnView:非常に高機能でビューワというより画像変換ツー
ルと言った方がよい.日本語への対応が悪いのが欠点.
– 注:レジストリを変更しないことを「レジストリー・フリー」などと言います.サテライト室で
USBディスクにツールをインストールして使えるかどうかは,「レジストリー・フリーと書い
てある」,「インストールがダウンロードや解凍だけで済む」が一応の目安になります.
• Windows のエクスプローラは案外優れもの.
2009/10/14
2009/10/14
ファイル名変更用ツール
• デジカメが普及し,大量の画像ファイルを扱う機会が増えたため,画像フ
ァイルの名称を変える,特に連番を付けるためのツールが沢山が作られ
ています.使い方は千差万別ですので,たとえば次ページのリンクを参
考にして自分で調べてみてください.その際,連番変更のポイントは次の
3点です:
1. ファイルは何らかの順番に並べられている.
2. その順に「ファイル名本体+連番+.イクステンション」というファイル名
を「連番」を増やしながら(あるいは減らしながら)つけていく.たとえば,
課題1では,ファイル名本体は “page”, イクステンションは “jpg”, そして
連番は 001, 002,…,184 などとなる.(1,2 とせず,必ず 001, 002, とする
こと. そうする理由はわかりますか?)
3.
上記の名前変更には,「連番の最初の番号」「連番の増加(減少)単位」
「連番の最後の番号」を指定する必要がある.増加(減少)の単位を,
通常,ステップという.たとえば,ステップが2ならば,連番は 001, 003 の
ように増える.
2009/10/14
ファイル名変更用ツールリンク集
•
•
•
•
BatchGOO
FlexRena81
Namery
x_rename
• 他にも沢山あります.自分の好みのものを見
つけましょう.
2009/10/14