文字の表現 ビット列 符号化の 仕組み 文字列 符号化の利用 入力装置 文字 符号化 文字 メモリー ビット列集合 出力装置 文字 復号化 文字の符号化 文字セット 符号化方式 JIS/ASCII ローマ字 ISO 2022 JIS X 0201 カタカナ EUC JIS 漢字 シフトJIS JP 文字セット ASCII (ANSI X 3.4) A, B, C, ..., 0, 1, 2, … 字 JIS漢字 (JIS X 0208 : 1997) 6879文字 94文 旧版 旧JIS (JIS C 6226 – 1978, 78 JIS)(互換性 なし) 旧版 新JIS (JIS X 0208 – 1983, 83 JIS)(互換性 なし) EUC UNICODE (ISO 10646) 256 x 256文字 符号化方式 制約 通信→7ビット単位が望ましい パリティビット ASCII 文字コード 7ビットでASCII文字セットを表現 通信に際しては、全体で8ビット、ただしその時 の先頭ビットはパリティビット 表(次ページ) 7ビットASCIIコード表 先頭3ビット 0 0 後 ろ 1 の 4 2 ビ ッ ト 1 2 3 4 5 6 @ P A Q a B R b 8 9 A Z B C D / 0E : SO, 0F : SI, 41 : A, 62 : b 7 7ビットカタカナ 先頭3ビット 後 ろ 4 ビ 0 ッ ト 1 2 0 1 2 3 4 ア チ イ ツ 5 6 7 未 定 義 未 定 義 9 A B C 0E : SO, 41 : チ(半角) ワ 混在 例 文字 A B SI チ カナ 始ま り ツ SO A カナ 終わ り B ビッ 41 ト列 42 0F 42 0E 42 文字化け 41 41 ISO 2022 – JP JIS漢字コード 先頭8ビット(16進数2ケタ) 00 後 ろ 8 ビ ッ ト ( 1 6 進 数 2 ケ タ ) 2A 2B 74 75 FF 00 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 21 ! ' # & 22 → ← 23 - - 24 お か - - ・・・ ・・・ ・・・ ・・・ ・・・ 30 葵 茜 尤 印 31 迂 雨 鉛 鶯 ・・・ ・・・ ・・・ ・・・ ・・・ # ・・・ t 例。2A24:お、7423:t FF ♭ u EUC JP コード EUC CN(中国語), EUC KR(韓国語) あり SHIFT JIS コード ACII/JIS ローマ字 21 ~ 7E JIS X 0201 カタカナ A! ~ DF JIS X 0208 第1バイト 81 ~ 9F, E0 ~ EF 第2バイト 40 ~ 7E, 80 ~ FC 特徴 1.初めの1バイトを見て、文字の種別が分かる 。→内部処理に向く 2.8ビットを使うので、外部用(通信用)には 向かない(パリティビットをとれない) UNICODE ISO 10646文字コード 2バイト、4バイト UTF 8 文字列系の表現 文字列の表現 文字列演算の表現 比較 (A, B)→T, F 照合 連接 (A, B) → A・B 部分列 (A1 A2・・・An, m, n) → Am・・・An 文字列照合 先頭4ビットが0110と等しいかどうか 入力 8bitビット列 例 0110 0000 出力 0000 0000 (等しい時) それ以外の値 (それ以外の時) ただし、
© Copyright 2025 ExpyDoc