SAMBA日本語問題と今後 - 日本 Samba ユーザー会

SAMBA日本語問題と今後
日本SAMBAユーザ会
www.samba.gr.jp
2000.4.19
日本語独特のL10N問題とは?
各社仕様の拡張文字


アップル、IBM、NEC、マイクロソフト
文字の正規化問題
複数の符号化

EUC系、 JIS系、SJIS系
規格の混乱など



JIS X 0208-1978 -> 1983での文字のいれかえ
JSAによる第3水準、第4水準の策定の問題
広くフォントの存在しない JIS X 0212 補助漢字
Unicodeとのマッピング
各種OSの日本語文字
OS
文字コード名
定義されている文字
MS-DOS
SJIS
JIS X0208-1983
JIS X0201 KANA/ROMAN
MSWIndows
CodePage 932
JIS X0208-1990に加えてIBM拡張漢
字、NEC漢字、NEC選定IBM拡張文
字、ユーザ定義文字
Apple
Apple83
Apple90
SJISにくわえてユーザ定義文字
JIS X0208-1983 or -1990
Unix系OS
一般にEUC, SJISサ
ポートのものもあり。
Localeの有無次第
JIS X0208-1990, JIS X 0201
KANA/ROMAN
JIS X 0212-1990
SHIFT-JISコード
文字種
2バイト文
字
(JIS X
02081990)
16進コードによる範
例
囲
1Byte 81 - 9F, E0 - EF
阿唖亜娃
(未定義領域含)
2Byte 40 - 7E, 80 - FC
1バイト半角仮名
文字
A1 - DF
アイウエオ
ABCDE
1バイト ASCII/JIS 21 - 7E
ローマ字
\/!”#$
※SJIS文字エンコーディングであり、符号化集合ではないことに注意
IBM拡張文字
文字種
16進コードによる
範囲
2バイトIBM
非漢字およ
び漢字
1Byte FA - FC
2バイト
ユーザ定義
文字
1Byte F0 - F9
予約領域
1Byte 85 - 87, EB - EF
2Byte 40 - 7E, 80 - FC
2Byte 40 - 7E, 80 - FC
2Byte 40 - 7E, 80 - FC
例
ⅤⅥ、∟、≡㍻
纊褜鍈銈蓜俉嵓
NEC拡張文字
文字種
2バイト
ユーザ定義
文字
1Byte
2Byte
16進コードによる
範囲
F0 - FC
40 - 7E, 80 - FC
2バイト NEC 1Byte
拡張文字セッ
2Byte
ト
85 - 87, EB - EC
2バイト NEC 1Byte
選定IBM拡張
2Byte
文字
ED - EF
40ー7E、 80 - FC
40 - 7E, 80 - FC
例
ⅤⅥ、∟、≡㍻
①②
纊褜鍈銈蓜俉嵓
Windows符号化文字集合
コードページとは?

Windowsにおいて、各国語をサポートする文字コード
符号化セット
CP932の特徴




SJISを中心に
IBM拡張文字、NEC拡張文字セット、NEC選定IBM拡
張文字を採用
外字領域
MS定義のUnicodeへのマッピング

他にApple,IBM等の定義もSJISでは存在する
Unicodeとsamba
Unicode変換
ftp.unicode.orgのテーブル利用
 Unicode2.1準拠

Unicode-CP マッピング

漢字コード正規化を公式にはサポートせず
Windows NT・2k
Unicode
Windows95・98
SJIS
Windows95・98
SJIS
Unicode
→SJIS
Samba
SJIS
→
LFN
EUC,
SJIS,
JIS,
HEX,
CAP
OS
ファイル
システム
EUC,JIS
JISでは多様なコードが存在



ISO-2022-JP [-2]
新JIS, 旧JIS, NEC漢字
ASCII or JIS ROMANと併用
サポートする符号化集合

JIS X 0208-1990, JIS X 0201 KANA,
JIS X 0201 ROMAN/ASCII, JIS X 0212-1990
ISO 2022に則り符号化
Discussion
SAMBAのCoding Systemは何がいちばんいい
のか
内部コードはなにがいいのか
Windowsの拡張をどこまで、どのようにサポート
するのか
JIS X 0212補助漢字はどうするのか
その他、皆さんの議題



VFAT-JPパッチとの整合性?
Li18nux
韓国語、中国語、台湾
将来のSAMBA内部コード
Windows NT・2k
Unicode
Samba UCS4
Windows95・98
→
LFN
Unicode
EUC,
SJIS,
JIS,
HEX,
CAP
OS
ファイル
システム
UCS4
LANMAN, etc
SJIS
SJIS
→
UCS4
UCS4
UTF8
OS
ファイル
システム