報告1:蔵書評価とその方法

報告4:蔵書評価にお
ける文字コード問題に
ついて
池内
淳
報告4の内容
1.
蔵書評価における文字列照合について
2.
文字コードと文字集合の概観
3.
NDL蔵書データについて
4.
米国議会図書館及び中国国家図書館の蔵書
データについて
5.
文字列照合の際の諸問題について
2
書誌同定の照合キーとして
のISBNコードの評価

複数の 図書館間 における大量の 所蔵資料
の 重複数 を調査しようとする際に、極めて
効率的 なアプローチである。

その一方で、 ISBNコード のみを 照合キー
とすることによる 調査バイアス の存在につ
いても 自覚的 でなければならない。
Powered by Monta Method
<http://www.bricklife.com/weblog/000626.html>
3
ISBNを単独の照合キーとする
場合の調査バイアス(確認)


重複数を過小評価する可能性について

ISBNが付与されていない資料の存在

ISBNが誤入力されている資料の存在
重複数を過剰評価する可能性について

同一の資料に複数のISBNが付与される場合
(シリーズ物等)

出版国・装丁等が異なるため、同内容の資
料に異なるISBNが付与される場合
4
Powered by Takahashi Method
<http://www.rubycolor.org/takahashi/>
5
どうすれば
6
いいですか?
7
それは
8
International Standard Book Number
9
だけでなく
10
11
書誌事項を
12
例えば
13
著者名や
14
書名等を
15
書誌同定
16
のための
17
照合キー
18
として
19
用いること
20
複数の書誌事項を照合キー
に含めることの意味:1

ISBN 単独の場合よりも、より 精緻
な評価結果を得る可能性がある。

一方、ISBN 単独の場合では、ほとん
ど考慮する必要のない 文字コード や
文字集合 の問題について、注意を払
わなければならない。
21
複数の書誌事項を照合キー
に含めることの意味:2

ISBN単独の場合にもたらされる 誤差 と、
積極的に 調査バイアス を除去しようとする
場合の コスト とを評価することが必要。

文字コードの問題に対する 適切な処置 を
怠った場合、ISBN単独の場合よりも、より
精度の低い 評価結果を得る可能性がある。
22
ところで
23
文字コード
24
25
文字コードについて

文字コード(character code)

コンピュータが 文字・記号 に 数字 を割り
当てるための符号化方式、あるいは、その
符合そのもの

文字集合(character set)

特定の文字コード系において表現可能な
文字・記号 の集合(=符号化文字集合)
26
代表的な文字コードの例:
ASCII(1963~)
American Standard Code for Information Interchange
7ビット(27) 2進数: 0000000~1111111 16進数: 00~7F 10進数: 0~127
27
128文字?
(96文字)
28
それだけでは
29
とても
30
足りません
31
32
どうすれば
33
いいですか?
34
文字集合を拡張するための
代表的なアプローチ

ISO/IEC 2022系

様々な 文字コード表 を切り替えることで、同一のコードポイ
ントに 異なる複数の文字 を割り当てる方式


言語圏ごとに 地域化(localization: l10n)が必要
Unicode/ISO/IEC 10646系

数多くの言語を網羅する単一の 文字コード表 を構築し、特定
の文字に対して、一意のコードポイントを割り当てる方式
(→ 国際化(internationalization: i18n))

地域化のための コスト を節約できるが、ファイルが 重く な
り易い。
35
ISO/IEC 2022(8ビット) の概
念図(コード表の切り替え)
中間バッファ(G0~G3)に読み込まれた複数の
文字コード表を、インユーステーブル(GL/GR)に
読み込み、特定のエスケープシーケンスを用いて、
適宜、文字コード表を切り替える。
<インユーステーブル>
<中間バッファ>
36
Unicode/ISO 10646におけ
る文字集合の概念図:1
0点
255点
0区
UCS-2
巨大な文字空間
を確保する
16ビット
2オクテット
256区×256点
65,536コードポイント
255区
UCS: Universal multiple-octet coded Character Set
37
65,536文字?
38
それだけでは
39
とても
40
とても
41
とても
42
とても
43
足りません
44
Unicode/ISO 10646におけ
る文字集合の概念図:2
UCS-4
×256面
31ビット
4オクテット
128群×256面×256区×256点
2,147,483,648 コードポイント
×128群
UCS: Universal multiple-octet coded Character Set
45
Unicode
ISO/IEC 10646
では
46
文字コードと
47
文字集合を
48
明確に
49
弁別しています
50
UCSの
51
符号化方式は
52
プロレスの団体名ではありません。
53
54
ISO/IEC
10646では
55
これを
56
UCS
Transfomation
Format
57
と呼び
58
Unicode
では
59
これを
60
Unicode
Translation
Format
61
と呼びます
62
ここでは
63
8-bit UCS Transformation Format
Unicode Translation Format-8
64
について
65
採り上げます
66
UTF-8の特徴について

1バイト~6バイトの可変長符号化方式で、UCS-4の文字集合を全て網羅できる。

ASCIIが1バイトで表現されるため既存のシステムや文字コードとの親和性が高い。

1バイト対多バイト、及び、多バイト文字間での自動判別が容易。

CJKには3バイト以上が割り当てられるため、文字レパートリーの多い言語圏には不
利
67
NDL蔵書データについて


文字コード → EUC-JP

ISO/IEC 2022に準拠した日本語文字コード

UNIX系OSの多くで用いられている
文字集合 → JIS X 0208の範囲

「ひらがな」、「カタカナ」、「基本ラテン+記
号」、「JIS第一/第二水準漢字」

拡張ラテン、ギリシャ文字、キリル文字等について
は、代替文字を定義して使用(→配付資料参照)
68
NDLにおける代替文字の例:
フランス語の場合
69
NDLにおける代替文字の例:
ロシア語(キリル文字)の場合
70
本調査の対象とした国立図
書館の文字コードについて

米国議会図書館(Library of Congress)

UTF-8

MARC-8
• MARC21で定義された独自の文字コード
• ISO/IEC 2022に準拠

中国国家図書館(National Library of China)

UTF-8
71
文字列照合を行う際の諸問
題について :1

文字コードの異同について

特定の目録データの文字コードは、既知で
あることから、純粋に、技術的問題 として
処理される。

文字集合の異同

予め、代替文字 や 翻字リスト を作成して、
逐次、対応する必要がある。
72
文字列照合を行う際の諸問
題について :2

表記のゆれ、誤入力について

ISBN単独の場合、デリミタである「-(ハイフン)」の有無を
考慮する程度で構わない。

文字列の完全一致を書誌同定の条件とした場合、蔵書の一致数を
過小評価する可能性が極めて高い。

引用文献の記述のゆれを吸収するための研究蓄積は存在するもの
の、国際的な大規模図書館間の書誌データの記述のゆれを吸収す
るといった既往研究は存在しない。

ISBNの一致する書誌データ間において、タイトルや著者名がど
の程度一致するのかについて調査を行うというアプローチは有効
73
おわり
74