情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/04/23 担当:林晋 TA:橋本雄太 電子ライブラリ・アーカイブ 全文検索とその威力 • 図書館の本を利用するとき,どうしていますか? • 今では殆どの場合,OPAC(Online Public Access Catalog)を使います.京大 ではKULINEの「簡易検索・詳細検索」などがそれ. • しかし, 昔は紙のカードを使っていました.多くの図書館などで殆どの書 籍データの遡及入力が済んでいますが,それでも,今でも紙カードでしか 見つからない場合も稀にあります. – 遡及入力とは: http://www.janul.jp/j/publications/reports/66/8.html – 京大の遡及入力 • 静脩(Nov. 2007)の記事.古い記事なので, もう全部終っているはずだが,どのような苦労が あったかが偲ばれる. PDFなのでクリックして開かなかったら,ダウンロードしてから読んでみ てください.(静脩: 京大の図書館の学内誌) – 文学部の遡及入力は完了している. • 数年前まで遡及入力をしていた. 今は1Fの学生用のラウンジになっている場所を文学部の 遡及入力のために使っていた. • ただし,特殊文庫の資料の一部, 例えば西田幾多郎の手書き原稿などはOPACで検索すること はできない.京大図書としての番号付けさえされていない… 今の基本はOPAC • 現代では大学などの図書館,文書館では,資料や書籍には 「番号」がつけられ, その番号で認識されています. • そして, その番号はメタデータとともにデータベースに登録さ れ, それを京大のOPAC kuline のようなWEBサービスで検索し て, それがどこにあるかを調べたり, 予約したり, 他大学から 取り寄せたりができます. • ドイツ発祥のSubitoというサービスでは, 図書館に頼むとコピ ーを郵送してくれさえする. – 日本でSubito に参加している図書館 – 参考資料 http://current.ndl.go.jp/node/8567 – ドイツ語Wikipedia http://de.wikipedia.org/wiki/Subito • 課題:メタデータとは何か調べよ. 提出必要なし. ドイツは先進国 • ドイツは図書館, 文書館のIT化, WEB化では, 世界トップの一つ. • 特に歴史史料のようなものまで, 検索できる ようになっている: – Kalliope: http://kalliope.staatsbibliothekberlin.de/ – ゲーテの手稿や, 手紙などがどこに所蔵されて いるか, たちどころに分かる. • 手紙の場合は, 送り手, 受け手を指定して検索できる 今はなんでもオンライン! • 十年くらい前までは, こんなものはなかったので, ドイツ史をやるためには, その史料を探すために, ドイツに行ったり, メールを書いたりで結構手間 だった. • 今は特定の大学図書館に, 史料を問い合わせたりすると, 「なぜ, Kalliope で調べないのか?」と, 怪訝そうな答が返って来る時代になっている. • 日本では残念ながら, まったくこういうことはできそうにない. • 問題は, 遡及入力のように, 紙の上だけにある情報を, サイバー空間(サ イバースペース)にコピーすること. これは情報元が, サイバー空間に属し ていないので, コピーするには, 非サイバー空間(つまり, 我々が属してい ると思っている世界)での大変な労力が必要. • しかし, 京大の中だけとかならば, 情報はすでにサイバー空間内だけで, 殆どの図書情報を検索可能. • さらに,しかし,文学部が持っている西田幾多郎史料の様に,サイバー空 間で調べられないものもある.学者ならそれを無視してはいけない. • 課題:サイバー空間, サイバースペースとは何か調べよ. 提出必要なし では, 昔はどうだったか? • では, 昔はどうだったか? • OPAC だけで済むようになったのは最近. • 2007年11月の静脩(Nov. 2007)に遡及入力の記事があるとい うことは, 7年前は, 現実物理世界と, サイバー世界にズレが 有ったということ. • 今は, これは記事にならない. サイバー世界=Kuline では分か らないものがありますよ, という情報ならば記事になる. • つまり, サイバーでないものが「例外」ということ. • このように, 今はサイバー世界(OPAC)が主流, というより, そ れこそが「現実世界」となった. • では, 図書館にPCさえなかった時代はどうしていた? 昔の人は大変だった:紙カード • 昔の紙カードによる書籍探しは? – 既に存在しないブログ http://toyohiro.at.webry.info/200812/article_7.html よ り,紙カード(目録カード)とそのボックス.このブログが存在しないことが時代 いの変化を示している. メタデータとカード • • • 7,8年前まで, 京大でも書籍はカードで検索していました. もちろん, 文学部図書 館以外の書籍は, その図書館に出向いて探すしかありませんでした. 各書籍を表すカードには, 書籍の色々な属性(性質, 特徴)が書かれています. 例 えば, タイトル, 著者, 出版年などが書かれていて, それをキーにして, 次ページの ような箱に入った大量のカードを一枚一枚めくって探していました. この様な情報が, 書籍のメタデータです. Kuline の詳細検索とカード • 次ページの画像は, Kuline の詳細検索の図です. • これにも, 著者名, タイトル, 出版年という項目があり ます. • そして, これらを指定して探すわけですから, カードを 捲りながら, こういうメタデータで探していたのを, WEBを通して使っている図書館のコンピュータが肩 代わりしてくれているということが分かります. • また, Kuline の方が紙カードより遥かに, メタデータ の項目が多くなっています. 書籍メタデータの標準スキーマ:Dublin Core • Kuline 詳細検索や紙カードの項目のパターンを, ス キーマ (schema)といいます. – これは書籍メタデータだけでなく, データベース一般で使 われる言葉. • スキーマは各OPAC(のデータベース)ごとに決めま すが, できるだけ統一した方が, 沢山のOPACを超え て検索するときなど便利です. • つまり標準的スキーマがあると便利ですが, 現在, 最も基本的なものと考えられているのが, Dublin Core と呼ばれるスキーマです. 課題3,4:提出必要 • 課題3 – 提出期限:4月23日(本日)18:00 – 提出方法:[email protected]にメールで. • 件名(subject)は必ず,“情報技術演習 課題3”にする. • 自分の名前と学籍番号を本文冒頭とメール本文に書く. – 問題: Dublin Core とは何か手短に説明せよ. • 課題4 – 提出期限:4月29日24:00 – 提出方法:[email protected]にメールで. • 件名(subject)は必ず,“情報技術演習 課題4”にする. • 自分の名前と学籍番号を本文冒頭とメール本文に書く. – 問題: 先に示した紙カードのスキーマの項目を, Dublin Core の項目と照らし合わせて 説明せよ. ただし, 紙カードの画像だけでは, 何かよく判らないものもある. それらの説明 は推測でやってよい. 船山信一の論理学史研究 • 船山信一(1907-1994):50-70年代の立命館教授.京大文卒 業.京都学派左派(他に三木清,戸坂潤)の哲学者・労働運 動家. • 明治期の西洋哲学の導入史で知られる. • 明治論理学導入史も研究している.日本の論理学史の,ほ ぼ唯一の研究.大体,明治20年代までの論理学関係の本を 網羅. • 図書カードを駆使して「論理」「推論」「推理」「演繹」などの キーワードに関連する題名や項目で探したとしか思えない. 文部省(当時)の研究費をもらってやっている.バイトを使っ た? • それが今では・・・ NDL近代デジタルライブラリで検索 • デジタルライブラリの例で出てきた, 国会図書館の近代デジ タルライブラリ. これの詳細検索で, 船山がやったことと同じこ とをやってみてください. 詳細検索URL: – http://kindai.ndl.go.jp/search/detail? • タイトル欄を「論理, 推論, 推理, 演繹, 帰納」にし, その右側の AND は OR にする. そして, 出版年は明治1年から45年(月 日は空欄), 結果表示の第1ソートを「出版年:古い順」にして から, 「詳細検索」のボタンを押す. • これでタイトルに「論理, 推論, 推理, 演繹, 帰納」のどれかが ある明治時代の書籍が出版が早い順ですべて出る. • 次ページの図参照 結果は! • 一瞬で膨大な数の関連図書が表示される. • その中には, 日本の民主主義運動の魁の一人であ る「憲政の神様尾崎行雄(尾崎咢堂)」が書いた「演 繹推理学」(明治15年)などというものも出てくる. – これは船山も見つけている. • おそらく船山が見つけた書籍は, これでほとんどす べて見つかっているはず. 船山が出来なかった目次検索 • 船山は目次までは検索できていない. しかし, 近デジならできる. • 今度は, 「論理, 推論, 推理, 演繹, 帰納」をタイトル欄でなくて, 目次欄にし て, 同様に詳細検索する. (次ページ図参照) • そうすると, タイトルが論理を示唆しない本で目次に論理関係の用語があ るものが沢山みつかる. その中には, 次のようなものまである: – 小学教員必携 • 明治18年 • 目次に「論理学ノ部」「論理法ト教育ノ関係」 – 警官処世訓 • 明治38年 • 目次に「論理学」 • あまりに沢山結果がでるので, 明治38年出版の「警官処世訓」はなかな か見つかりません. 全文検索 • 沢山の文書(ファイルなど)から,一つの言葉を一斉に探し出すことを「全 文検索」(full text search) という. – 文書の中を全部探すという意味らしい.しかし,すべての文書を,という意味 もある(日本語では,そちらのニュアンスが強いような・・・). – Windows の「検索」,Google など,この全文検索といえる. – 船山は「題名」などのメタデータを検索したと思われるが, これは全文検索で はない. • 題名でなく全文検索ができたら凄い. – 日本では,次の二つが目次レベルまでの全文検索が可能 • 国会図書館近代デジタルライブラリ http://kindai.ndl.go.jp/index.html • NII Webcat Plus http://webcatplus.nii.ac.jp/ – Google Books http://books.google.com/ は本を超えての本当の全文 検索が可能. • たとえば, Franklin, lightning の二つをキーワードにして検索してみてください. 全文検索の威力 • 人文学研究のためには, 明らかに, – メタデータ検索<目次検索<全文検索 • 近代デジタルライブラリの目次検索や, Google Books の全文 検索により, それまでの人文学研究では見落とされていた面 白い事実が簡単に見つかることがある. – 明治論理学のケース:船山は思想史のレベルでしか, 明 治の大論理学ブーム(これは現代のロジカルシンキング, クリティカルシンキングブームを遥かに凌ぐ規模だった)を 見ていないが, 小学校教員, 警官のための「ハウツー本」 にさえ, 論理学の話が掲載されていることは, これを文化 史の立場でみて, 平成のブーム(MBAブーム)と比較する と面白そうだ. 注意! 1. この様な検索技術を用いるとき, 「検索して無かったら, 現実にも無い」と思って はいけない. – 遡及入力の例でわかるように, サイバースペースはあくまで現実の世界ではない. それ は現実の世界にドンドン近似しつつあり, それを凌駕しつつあるが, 必ず「抜け」はある もの. – 一旦面白い史料を見つけてしまえば, それはITで見つけても, 図書館の本でみつけても 同じこと. 検索で見つけたということは関係ない! – ただし, 検索という手段を持つ人は持たない人より, 頭一つ抜け出せる. 2. 検索には知恵が必要だということを常に念頭において検索する. – – 近デジで明治の論理本を探す時, 「論理」以外に「推理」というキーワードを使っている ことに注意. これがないと尾崎咢堂行雄の論理本「演繹推理学」はタイトルサーチで はヒットしない. こういうことをやったのは, 林が「論理」という言葉が定着したのが明治のかなり遅い 時期だということを, その訳語の考案者である西周を研究していた院生から聞いて知 っていたから. だから, 林は, 西周の初期のlogic の訳語である「到知学」なども利用し て, 色々とサーチを試みて色々な書物を見つけ, その上で本演習用に「論理, 推論, 推 理, 演繹, 帰納」という検索用のフレーズ(クエリ query という)を考えた. こういうものが 天から降ってくるのではない. OCR: Optical Character Recognition Google Books の全文検索を可能にしているもの • では, このような強力な全文サーチを可能にしているのは何だろうか? • 近デジの場合は, 人間が目次を読んで入力していると思われる. • 一方で, Google Books の全文検索を可能にしているのは,人間でなくて, OCR ソフトというソフトウェア. – この差は何か?実は, これにはちゃんとした理由があるが, それは次回. • 次回,このOCRの実習を, みなさんにやってもらいますで,次の二つを 持ってきてください.持ってない人のためには,一応,こちらでも準備をし ます. • デジカメ – 撮影した画像をUSBディスクやSDカードでPCに移せるデジカメ.電話 を使うと高くなるので,カードやケーブルで転送できるもの.ケーブル の場合,そのケーブルも.最近のものならばケータイでもOK. • その文章を PC に入力したい5ページくらいの印刷物
© Copyright 2024 ExpyDoc