報告1：蔵書評価とその方法

報告4：蔵書評価にお
ける文字コード問題に
ついて
池内
淳
報告4の内容
1.
蔵書評価における文字列照合について
2.
文字コードと文字集合の概観
3.
NDL蔵書データについて
4.
米国議会図書館及び中国国家図書館の蔵書
データについて
5.
文字列照合の際の諸問題について
2
書誌同定の照合キーとして
のISBNコードの評価

複数の図書館間における大量の所蔵資料
の重複数を調査しようとする際に、極めて
効率的なアプローチである。

その一方で、 ISBNコードのみを照合キー
とすることによる調査バイアスの存在につ
いても自覚的でなければならない。
Powered by Monta Method
<http://www.bricklife.com/weblog/000626.html>
3
ISBNを単独の照合キーとする
場合の調査バイアス（確認）


重複数を過小評価する可能性について

ISBNが付与されていない資料の存在

ISBNが誤入力されている資料の存在
重複数を過剰評価する可能性について

同一の資料に複数のISBNが付与される場合
（シリーズ物等）

出版国・装丁等が異なるため、同内容の資
料に異なるISBNが付与される場合
4
Powered by Takahashi Method
<http://www.rubycolor.org/takahashi/>
5
どうすれば
6
いいですか?
7
それは
8
International Standard Book Number
9
だけでなく
10
11
書誌事項を
12
例えば
13
著者名や
14
書名等を
15
書誌同定
16
のための
17
照合キー
18
として
19
用いること
20
複数の書誌事項を照合キー
に含めることの意味：1

ISBN 単独の場合よりも、より精緻
な評価結果を得る可能性がある。

一方、ISBN 単独の場合では、ほとん
ど考慮する必要のない文字コードや
文字集合の問題について、注意を払
わなければならない。
21
複数の書誌事項を照合キー
に含めることの意味：2

ISBN単独の場合にもたらされる誤差と、
積極的に調査バイアスを除去しようとする
場合のコストとを評価することが必要。

文字コードの問題に対する適切な処置を
怠った場合、ISBN単独の場合よりも、より
精度の低い評価結果を得る可能性がある。
22
ところで
23
文字コード
24
25
文字コードについて

文字コード（character code）

コンピュータが文字・記号に数字を割り
当てるための符号化方式、あるいは、その
符合そのもの

文字集合（character set）

特定の文字コード系において表現可能な
文字・記号の集合（＝符号化文字集合）
26
代表的な文字コードの例：
ASCII(1963～)
American Standard Code for Information Interchange
7ビット(27) 2進数: 0000000～1111111 16進数: 00～7F 10進数: 0～127
27
128文字?
(96文字)
28
それだけでは
29
とても
30
足りません
31
32
どうすれば
33
いいですか?
34
文字集合を拡張するための
代表的なアプローチ

ISO/IEC 2022系

様々な文字コード表を切り替えることで、同一のコードポイ
ントに異なる複数の文字を割り当てる方式


言語圏ごとに地域化（localization: l10n）が必要
Unicode／ISO/IEC 10646系

数多くの言語を網羅する単一の文字コード表を構築し、特定
の文字に対して、一意のコードポイントを割り当てる方式
（→ 国際化（internationalization: i18n））

地域化のためのコストを節約できるが、ファイルが重くな
り易い。
35
ISO/IEC 2022（8ビット）の概
念図（コード表の切り替え）
中間バッファ（G0～G3）に読み込まれた複数の
文字コード表を、インユーステーブル（GL/GR）に
読み込み、特定のエスケープシーケンスを用いて、
適宜、文字コード表を切り替える。
＜インユーステーブル＞
＜中間バッファ＞
36
Unicode／ISO 10646におけ
る文字集合の概念図：1
0点
255点
0区
UCS-2
巨大な文字空間
を確保する
16ビット
2オクテット
256区×256点
65,536コードポイント
255区
UCS: Universal multiple-octet coded Character Set
37
65,536文字?
38
それだけでは
39
とても
40
とても
41
とても
42
とても
43
足りません
44
Unicode／ISO 10646におけ
る文字集合の概念図：2
UCS-4
×256面
31ビット
4オクテット
128群×256面×256区×256点
2,147,483,648 コードポイント
×128群
UCS: Universal multiple-octet coded Character Set
45
Unicode
ISO/IEC 10646
では
46
文字コードと
47
文字集合を
48
明確に
49
弁別しています
50
UCSの
51
符号化方式は
52
プロレスの団体名ではありません。
53
54
ISO/IEC
10646では
55
これを
56
UCS
Transfomation
Format
57
と呼び
58
Unicode
では
59
これを
60
Unicode
Translation
Format
61
と呼びます
62
ここでは
63
8-bit UCS Transformation Format
Unicode Translation Format-8
64
について
65
採り上げます
66
UTF-8の特徴について

1バイト～6バイトの可変長符号化方式で、UCS-4の文字集合を全て網羅できる。

ASCIIが1バイトで表現されるため既存のシステムや文字コードとの親和性が高い。

1バイト対多バイト、及び、多バイト文字間での自動判別が容易。

CJKには3バイト以上が割り当てられるため、文字レパートリーの多い言語圏には不
利
67
NDL蔵書データについて


文字コード → EUC-JP

ISO/IEC 2022に準拠した日本語文字コード

UNIX系OSの多くで用いられている
文字集合 → JIS X 0208の範囲

「ひらがな」、「カタカナ」、「基本ラテン＋記
号」、「JIS第一／第二水準漢字」

拡張ラテン、ギリシャ文字、キリル文字等について
は、代替文字を定義して使用（→配付資料参照）
68
NDLにおける代替文字の例：
フランス語の場合
69
NDLにおける代替文字の例：
ロシア語（キリル文字）の場合
70
本調査の対象とした国立図
書館の文字コードについて

米国議会図書館（Library of Congress）

UTF-8

MARC-8
• MARC21で定義された独自の文字コード
• ISO/IEC 2022に準拠

中国国家図書館（National Library of China）

UTF-8
71
文字列照合を行う際の諸問
題について：1

文字コードの異同について

特定の目録データの文字コードは、既知で
あることから、純粋に、技術的問題として
処理される。

文字集合の異同

予め、代替文字や翻字リストを作成して、
逐次、対応する必要がある。
72
文字列照合を行う際の諸問
題について：2

表記のゆれ、誤入力について

ISBN単独の場合、デリミタである「－（ハイフン）」の有無を
考慮する程度で構わない。

文字列の完全一致を書誌同定の条件とした場合、蔵書の一致数を
過小評価する可能性が極めて高い。

引用文献の記述のゆれを吸収するための研究蓄積は存在するもの
の、国際的な大規模図書館間の書誌データの記述のゆれを吸収す
るといった既往研究は存在しない。

ISBNの一致する書誌データ間において、タイトルや著者名がど
の程度一致するのかについて調査を行うというアプローチは有効
73
おわり
74

Download Report