Document

文字の表現
ビット列
符号化の
仕組み
文字列
符号化の利用
入力装置
文字
符号化
文字
メモリー
ビット列集合
出力装置
文字
復号化
文字の符号化
文字セット
符号化方式
JIS/ASCII ローマ字
ISO 2022
JIS X 0201 カタカナ
EUC
JIS 漢字
シフトJIS
JP
文字セット
ASCII (ANSI X 3.4) A, B, C, ..., 0, 1, 2, …
字
JIS漢字 (JIS X 0208 : 1997) 6879文字
94文
旧版 旧JIS (JIS C 6226 – 1978, 78 JIS)(互換性
なし)
旧版 新JIS (JIS X 0208 – 1983, 83 JIS)(互換性
なし)
EUC
UNICODE (ISO 10646) 256 x 256文字
符号化方式
制約
通信→7ビット単位が望ましい
パリティビット
ASCII 文字コード
7ビットでASCII文字セットを表現
通信に際しては、全体で8ビット、ただしその時
の先頭ビットはパリティビット
表(次ページ)
7ビットASCIIコード表
先頭3ビット
0
0
後
ろ
1
の
4
2
ビ
ッ
ト
1
2
3
4
5
6
@
P
A
Q
a
B
R
b
8
9
A
Z
B
C
D
/
0E : SO, 0F : SI, 41 : A, 62 : b
7
7ビットカタカナ
先頭3ビット
後
ろ
4
ビ 0
ッ
ト 1
2
0
1
2
3
4
ア
チ
イ
ツ
5
6
7
未
定
義
未
定
義
9
A
B
C
0E : SO, 41 : チ(半角)
ワ
混在
例
文字 A
B
SI
チ
カナ
始ま
り
ツ
SO A
カナ
終わ
り
B
ビッ 41
ト列
42
0F
42
0E
42
文字化け
41
41
ISO 2022
–
JP
JIS漢字コード
先頭8ビット(16進数2ケタ)
00
後
ろ
8
ビ
ッ
ト
(
1
6
進
数
2
ケ
タ
)
2A
2B
74
75
FF
00
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
21
!
'
#
&
22
→
←
23
-
-
24
お
か
-
-
・・・
・・・
・・・
・・・
・・・
30
葵
茜
尤
印
31
迂
雨
鉛
鶯
・・・
・・・
・・・
・・・
・・・
#
・・・
t
例。2A24:お、7423:t
FF
♭
u
EUC JP コード
EUC CN(中国語),
EUC KR(韓国語) あり
SHIFT JIS コード
ACII/JIS ローマ字
21 ~ 7E
JIS X 0201 カタカナ
A! ~ DF
JIS X 0208
第1バイト
81 ~ 9F, E0 ~ EF
第2バイト
40 ~ 7E, 80 ~ FC
特徴
1.初めの1バイトを見て、文字の種別が分かる
。→内部処理に向く
2.8ビットを使うので、外部用(通信用)には
向かない(パリティビットをとれない)
UNICODE ISO 10646文字コード
2バイト、4バイト
UTF 8
文字列系の表現
文字列の表現
文字列演算の表現
比較 (A, B)→T, F
照合
連接 (A, B) → A・B
部分列 (A1 A2・・・An, m, n) → Am・・・An
文字列照合
先頭4ビットが0110と等しいかどうか
入力
8bitビット列 例 0110 0000
出力
0000 0000 (等しい時)
それ以外の値 (それ以外の時)
ただし、