漢字コードについて 平成10年5月25日 Windows NT 漢字処理技術協議会 WG2(コード&キャラクターセット)リーダー NEC オフィスシステム 伊藤 英俊 内容 コード問題についての整理 ・ コード系のおさらい ・ 漢字コードについての世の中の議論 JIS漢字コード拡張計画の進捗状況 ・ いわゆる第3・第4水準の標準化 作業の現状 コード系のおさらい ・ ISO 2022系 複数の 1バイト7ビットコード/8ビットコード 2バイト7ビットコード/8ビットコードを 「指示」(エクスケープシーケンス)と 「呼出し」(シフトコード)を用いて 同一システムで混在使用 ISO 2022 Code Extention Technique JIS X 0202 符号拡張技法 ISO 2022系コード 1バイトコード 7単位 010 001 b7~b5 b4~b1 0 0 0 0000 b7 b6 b5 b4 b3 b2 b1 1 1 制 SP 御 キ 図形キャラクタ ャ ローマ文字 ラ ク DEL タ 1111 010 001 000 1 SO SI 1 1 制 SP 1 御 キ 図形キャラクタ ャ 仮名 ラ ク DEL タ ISO 2022系コード 1バイトコード 8単位 b8 b7 b6 b5 b4 b3 b2 b1 010 001 000 b8~b5 b4~b1 0 0 0 0000 1111 1 1 1 1 制 SP 未定義 御 キ 図形キャラクタ 未 図形キャラクタ ャ ローマ文字 定 仮名 ラ (GL) (GR) 義 ク タ 未定義 DEL (CO) ISO 2022系 2バイトコード b8 b1 b8 b1 第1バイト b8 0 b7~b5 b4~b1 000 0000 ~ 1111 111 000 1 第2バイト b8=0 b8=1 制 御 コ ー ド スペース 図形キャラクタ GL 94×94 =8836 デリート 未定義 図形キャラクタ 0000 ~ 111 1111 GR 制御コード 未定義 未定義 未 定 義 JIS X 0208-1990 情報交換用漢字符号 1 1 8 9 15 16 点 非漢字524字 (未定義) 第1水準漢字 2965字 区 47 48 第2水準漢字 3390字 84 85 94 (未定義) 94 JIS X 0212-1990 情報交換用漢字符号-補助漢字 点 1 94 1 非漢字 15 16 (1区、3~5区、8区、12~15区は未定義) 漢字 区 245字 5801字 77 78 (未定義) 84 85 94 ISO 2022 コード拡張技法の概念図 GL LS0 G0 GR LS3 LS2 LS1R LS1 概念であって 厳密でないので注意 G1 LS3R LS2R G2 呼出し (シフトコード) G3 指示 (エスケープシーケンス) X0208 X0212 X0201 ESC I F ESC I1 I2 F F:ファイナルキャラクタ=図形文字セットのID コード系のおさらい ・ シフトJIS ISO 2022系のコードで1バイトコードと 2バイトコードを「指示/呼出し」なしで 混在使用するため1バイトエリアと 2バイトエリアが重ならないよう 2バイトエリアをシフトしたもの 簡便だが拡張性に乏しい (ex.X0212補助漢字は使えない) シフトJISコード 1バイト見て、1バイトエリアか2バイトエリアか知る 2バイトのエリアなら次のバイトと合わせて1字のコード 1バイト エリア 2バイト エリア 21 21 英 7E 数 7E 81 9F 1バイト エリア 2バイト エリア カ 40 FC ナ 40 FC E0 FC コード系のおさらい ・ ISO 10646 UCS、Unicode 従来のISO 2022とは異なり2オクテット (10646は2および4オクテット)の 単一コード系 ISO 2022との互換はない 非漢字は各国文字に個別コードを付与 漢字はC、J、K、各国漢字を統合化 ISO/IEC 10646-1:1993 UCS (JIS X 0221-1995) 群7F 群01 群00 点 256 区 面 00 256 ISO/IEC 10646-1:1993 UCS (JIS X 0221-1995) 群 面 区 点 UCS4 群00/面00: BMP(基本多言語面)=UCS2 = Unicode BMP(基本多言語面) 00 FF A領域 (アルファベット記号類) 19,903 40 I領域 (CJK統合漢字) 20,992 A0 O領域 (未定義) E0R領域 (PUA、互換文字等) PUA(私用領域)はE000~F8FFの6400字分 CJK統合漢字 コード系についての世の中の議論 ・ Unicode批判を客観的に整理 1.使える文字が限定される ′ 1.コード枠に制限がある (注.UTF16の回避策) 2.漢字を統合したのが問題 3.制定の経緯が気にくわない 民主主義(多数決論理)の悪用に よる多国籍企業の横暴 4.従来の国内規格との互換性がない 欧米企業には都合よい規格 (現代の黒船、日本への経済侵略) 批判についての私の意見 1.使える文字が限定 文字についての把え方の議論が不足 異なり字(親字)か異体字の不足か? 解決策は別 ′ 1.コード枠に制限 学術研究用(例:古代文字も必要)には 別の規格でよい 一般用規格のスーパーセットならなお可 2.漢字統合の問題 やり直せるならやり直せば! やり直せないようなら利用方法を考えよう! 批判についての私の意見 3.制定の経緯の問題 感情論を言ってても仕方ない 4.従来規格と非互換 承知で(多数決)で決めたのだから仕方ない フル変換は覚悟の上だろう 5.その他 皆、自分の立場でしか意見を言っていない 解決策の提言がない 漢字コードについての私の意見、提言 分野によってニーズは異なる ・学術研究分野:古代文字までコード化が必要 ・戸籍処理:誤字、俗字の類いの異り字、 異体字もDB上で区別が必要 異体字はプレゼンテーションレベルの問題 という考えは違う ・一般OA:たまに使う異り字、異体字は 外字処理で可能 経済性も大事 漢字コードについての私の意見、提言 異体字を指定できるスキームが必要 例えば異体字ファンクションと異体字番号で指定 ex. 渡辺 異体字 ファンクション 異体字 番号 渡邊 異体字は登録制で台帳管理 フォントを実装すれば渡邊が出るし フォントがなくても渡辺の異体字で あることは明白 異体字かどうかの判断規準(現在の包摂規準 とは目的が別)作りと常設管理機関が必要 JIS第3、第4水準標準化の進捗状況 スケジュール ・昨年度(1997)初めから検討開始 本年度中(1998)にJIS原案完成目標 ・本年9月~12月に公開レビュー予定で準備中 ・現在の状況は下記Webで公開中 http://jcs.aa.tufs.ac.jp/jcs/new-jis/ JIS第3、第4水準標準化の進捗状況 目的 ・現代日本語を符号化するために十分な 文字集合を提供すること ・JIS X 0208と同時に用い、JIS X 0208を 補完するものであること 目標は約5000字の漢字と記号類 ・現状の使用環境で直ちに実装できること JIS第3、第4水準標準化の進捗状況 現状(Web公開内容から再編集) ・漢字 資料を入手し資料間の1字毎の照合を実施中 既にかなりの部分は終っており、 その異り字数は約7200字 分野 典拠資料/調査対象資料 人名 NTTハローページ(1997/2)、NTT契約者名簿 地名 町字ファイル外字(国土地理協会)、 町字ファイル書き換え文字 1万分の1地図/2万5千分の1地図(国土地理院) 法例 現行法律・政令・省令外字 JIS第3、第4水準標準化の進捗状況 分野 典拠資料/調査対象資料 一般 新首字、熟語専用字の一方だけX0208にあるもの 日本国語大辞典(新版)外字(小学館) 広辞苑外字(岩波書店)、大辞林外字(三省堂) 共同通信社外字 学術 文部省学術用語集、切韻印目(鉅宋広韻による)、 韻鏡三十六字母 小・中・高校検定済全教科書1500冊 新潮文庫の100冊/明治の文豪/大正の文豪(新潮社) 大正新修大蔵経所収漢字(大蔵出版社) 中国医学古典用外字(日本内経医学会) その他 IBM選定文字、JIPS(日本電気)拡張文字、 (不明) JEF(富士通)拡張文字 JIS第3、第4水準標準化の進捗状況 ・非漢字 資料を入手し検討中 ・アイヌ語表記の仮名 ・鼻濁音表記の仮名 ・歯科記号 JIS第3、第4水準についての問題点 人名漢字が増えても 戸籍処理上の問題解決にはならない シフトJISに適用すると ・現在のAPのほとんどは動作しないと思われる 中国でGBKが実装されて大騒動発生と 同じパターン ・ユーザー外字が使えない 漢字コードについて 終
© Copyright 2024 ExpyDoc