報告4:蔵書評価にお ける文字コード問題に ついて 池内 淳 報告4の内容 1. 蔵書評価における文字列照合について 2. 文字コードと文字集合の概観 3. NDL蔵書データについて 4. 米国議会図書館及び中国国家図書館の蔵書 データについて 5. 文字列照合の際の諸問題について 2 書誌同定の照合キーとして のISBNコードの評価 複数の 図書館間 における大量の 所蔵資料 の 重複数 を調査しようとする際に、極めて 効率的 なアプローチである。 その一方で、 ISBNコード のみを 照合キー とすることによる 調査バイアス の存在につ いても 自覚的 でなければならない。 Powered by Monta Method <http://www.bricklife.com/weblog/000626.html> 3 ISBNを単独の照合キーとする 場合の調査バイアス(確認) 重複数を過小評価する可能性について ISBNが付与されていない資料の存在 ISBNが誤入力されている資料の存在 重複数を過剰評価する可能性について 同一の資料に複数のISBNが付与される場合 (シリーズ物等) 出版国・装丁等が異なるため、同内容の資 料に異なるISBNが付与される場合 4 Powered by Takahashi Method <http://www.rubycolor.org/takahashi/> 5 どうすれば 6 いいですか? 7 それは 8 International Standard Book Number 9 だけでなく 10 11 書誌事項を 12 例えば 13 著者名や 14 書名等を 15 書誌同定 16 のための 17 照合キー 18 として 19 用いること 20 複数の書誌事項を照合キー に含めることの意味:1 ISBN 単独の場合よりも、より 精緻 な評価結果を得る可能性がある。 一方、ISBN 単独の場合では、ほとん ど考慮する必要のない 文字コード や 文字集合 の問題について、注意を払 わなければならない。 21 複数の書誌事項を照合キー に含めることの意味:2 ISBN単独の場合にもたらされる 誤差 と、 積極的に 調査バイアス を除去しようとする 場合の コスト とを評価することが必要。 文字コードの問題に対する 適切な処置 を 怠った場合、ISBN単独の場合よりも、より 精度の低い 評価結果を得る可能性がある。 22 ところで 23 文字コード 24 25 文字コードについて 文字コード(character code) コンピュータが 文字・記号 に 数字 を割り 当てるための符号化方式、あるいは、その 符合そのもの 文字集合(character set) 特定の文字コード系において表現可能な 文字・記号 の集合(=符号化文字集合) 26 代表的な文字コードの例: ASCII(1963~) American Standard Code for Information Interchange 7ビット(27) 2進数: 0000000~1111111 16進数: 00~7F 10進数: 0~127 27 128文字? (96文字) 28 それだけでは 29 とても 30 足りません 31 32 どうすれば 33 いいですか? 34 文字集合を拡張するための 代表的なアプローチ ISO/IEC 2022系 様々な 文字コード表 を切り替えることで、同一のコードポイ ントに 異なる複数の文字 を割り当てる方式 言語圏ごとに 地域化(localization: l10n)が必要 Unicode/ISO/IEC 10646系 数多くの言語を網羅する単一の 文字コード表 を構築し、特定 の文字に対して、一意のコードポイントを割り当てる方式 (→ 国際化(internationalization: i18n)) 地域化のための コスト を節約できるが、ファイルが 重く な り易い。 35 ISO/IEC 2022(8ビット) の概 念図(コード表の切り替え) 中間バッファ(G0~G3)に読み込まれた複数の 文字コード表を、インユーステーブル(GL/GR)に 読み込み、特定のエスケープシーケンスを用いて、 適宜、文字コード表を切り替える。 <インユーステーブル> <中間バッファ> 36 Unicode/ISO 10646におけ る文字集合の概念図:1 0点 255点 0区 UCS-2 巨大な文字空間 を確保する 16ビット 2オクテット 256区×256点 65,536コードポイント 255区 UCS: Universal multiple-octet coded Character Set 37 65,536文字? 38 それだけでは 39 とても 40 とても 41 とても 42 とても 43 足りません 44 Unicode/ISO 10646におけ る文字集合の概念図:2 UCS-4 ×256面 31ビット 4オクテット 128群×256面×256区×256点 2,147,483,648 コードポイント ×128群 UCS: Universal multiple-octet coded Character Set 45 Unicode ISO/IEC 10646 では 46 文字コードと 47 文字集合を 48 明確に 49 弁別しています 50 UCSの 51 符号化方式は 52 プロレスの団体名ではありません。 53 54 ISO/IEC 10646では 55 これを 56 UCS Transfomation Format 57 と呼び 58 Unicode では 59 これを 60 Unicode Translation Format 61 と呼びます 62 ここでは 63 8-bit UCS Transformation Format Unicode Translation Format-8 64 について 65 採り上げます 66 UTF-8の特徴について 1バイト~6バイトの可変長符号化方式で、UCS-4の文字集合を全て網羅できる。 ASCIIが1バイトで表現されるため既存のシステムや文字コードとの親和性が高い。 1バイト対多バイト、及び、多バイト文字間での自動判別が容易。 CJKには3バイト以上が割り当てられるため、文字レパートリーの多い言語圏には不 利 67 NDL蔵書データについて 文字コード → EUC-JP ISO/IEC 2022に準拠した日本語文字コード UNIX系OSの多くで用いられている 文字集合 → JIS X 0208の範囲 「ひらがな」、「カタカナ」、「基本ラテン+記 号」、「JIS第一/第二水準漢字」 拡張ラテン、ギリシャ文字、キリル文字等について は、代替文字を定義して使用(→配付資料参照) 68 NDLにおける代替文字の例: フランス語の場合 69 NDLにおける代替文字の例: ロシア語(キリル文字)の場合 70 本調査の対象とした国立図 書館の文字コードについて 米国議会図書館(Library of Congress) UTF-8 MARC-8 • MARC21で定義された独自の文字コード • ISO/IEC 2022に準拠 中国国家図書館(National Library of China) UTF-8 71 文字列照合を行う際の諸問 題について :1 文字コードの異同について 特定の目録データの文字コードは、既知で あることから、純粋に、技術的問題 として 処理される。 文字集合の異同 予め、代替文字 や 翻字リスト を作成して、 逐次、対応する必要がある。 72 文字列照合を行う際の諸問 題について :2 表記のゆれ、誤入力について ISBN単独の場合、デリミタである「-(ハイフン)」の有無を 考慮する程度で構わない。 文字列の完全一致を書誌同定の条件とした場合、蔵書の一致数を 過小評価する可能性が極めて高い。 引用文献の記述のゆれを吸収するための研究蓄積は存在するもの の、国際的な大規模図書館間の書誌データの記述のゆれを吸収す るといった既往研究は存在しない。 ISBNの一致する書誌データ間において、タイトルや著者名がど の程度一致するのかについて調査を行うというアプローチは有効 73 おわり 74
© Copyright 2024 ExpyDoc