スライド 1 - lecture.ecc.u

「情報」 (中村)
オリジナル
PPT
(2010/05/07)
1
第2章
情報の表現
記号・符号化
整数の表現-2進法10進法16進法
10 進法
2 進法
16 進法
グレイ符号
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0
1
10
11
100
101
110
111
1000
1001
1010
1011
1100
1101
1110
1111
10000
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
10
17
10001
11
00000
00001
00011
00010
00110
00111
00101
00100
01100
01101
01111
01110
01010
01011
01001
01000
10000
11001
10進法と16進法
の表記の比較
A45F = 42,079
44,604 = FA3C
グレイ符号
構成法は HTML で説明
3
文字・記号とコード化の種類(1バイト文字=半角文字)
■ASCIIコード(1バイト文字=半角文字)
(American Standard Code for Information Interchange)
1963年にアメリカ規格協会(ANSI)で定められた文字コード。
7ビット128文字で構成されている。94文字がアルファベット・数字・
記号等の印刷可能な文字。34文字が空白文字と制御記号。
滅多に文字化けしない。
・実際には7ビットに、1 ビットのパリティビット加えた
8 ビット (1 バイト) で扱われる。 Def. 1バイト=8ビット
それゆえ、メモリなどの容量を示すのにバイトが使われる。(基本
的に文字数をそのまま表すから。)
4
ASCII コード a  (0110 0001) b  (0110 0010),
c  (0110 0011)
これらの8ビットの 0, 1 の列の内、最後の7ビットで文
字を表現し、ゆえに、2の7乗つまり128通りあるから、
計算機内では余分な 1 ビットを加えて、8 ビット= 1 バ
イト (byte) で表現している。
( 1 byte = ASCII 文字 1 文字)
■ JISコード (1バイト文字=半角文字)
ASCII で表現される文字は、英字、数字、他に ? # などの
いくつかの記号である。日本ではこれにカタカナ(半角カナ)
を加えてJIS コードとしている。
2バイト文字(全角文字)(日本語の表記)
■ JISコード:日本語で漢字も含めて扱おうとすると、128通り
では足りない。そこで日本では JIS(日本工業規格)によって漢
字を表わすコードが定められている。そこでは漢字、ひらがな、
カタカナを 16ビット(2バイト)で表わす。
16ビットの列は、2の16乗=65536通りあるので、ひらかな、
カタカナと日常に必要とされる程度の漢字をそこに割り当てて、
表現できる。 JIS コードを持つ漢字のうち、比較的良く使われ
る漢字を第一水準(2965字)、その他を第二水準(3388字)と区
別してある。
例
漢字(全角文字)のJIS コードの例。
JIS コードの 16ビット列は、通例4けたの16進数の列として表記され
る。次がその例。左が16進数の4つ組、右がそのビット列。
中 --> 4 3 6 6 = (0100 0011 0110 0110)
村 --> 4 2 3 C = (0100 0010 0011 1100)
6
■Shift
JISコード
Microsoftによって考案された、日本で一番使用されている
日本語文字コード。
主にMS-DOS、Windows、Mac OS、OS/2等のOSで広く使用さ
れる。パソコンで使われている。
半角カナを扱うことが可能。
ASCII部分は、7bitのJIS X 0201のローマ字で表現しているた
め、
・バックスラッシュ(半角の\)⇒円記号(\)
・ティルダ(~)⇒オーバースコア( ̄)の違いがある。
7
■EUC-JPコード
主に UNIX、Linux で広く使用される。
情報棟の UNIX サーバでは EUC が使われている。その
ため日本語をファイル名に使えない。
■Unicode
すべての文字を16ビット(2バイト)で表現し、1つの文字
コード体系で多国語処理を想定した文字コード。
2バイト表記の場合、最大65536文字の表現の為、漢字
圏の言語は全てをサポート出来ない問題がある。
JavaではUnicodeをデフォルトのデータ型としている。
情報棟端末ではUTF-8 を使っている。
8
情報表現の様々な側面(1)
• 情報の説明の仕方の違い
– 手続き的表現
• 時間をおった手順を説明
– 宣言的表現
• 対象間の関係や対象の属性を説明
• 情報の表現のされ方の違い
– 記号表現
• 与えられた記号の集合と解釈するための規則体系
– パターン表現
• 構成要素間の時空間パターン
車両通行禁止の標識(日本)
すべての車両通行禁止(欧州)
二輪車以外の車両通行禁止(欧州)
• 記号の恣意性
これは本来、構造主義の用語である。別
述。
– 記号表現と命題の対応付けは恣意的である
アナログ表現とディジタル表現の実際
量子化 観測値を離散的に取る
例
気温を 0.1 度単位ではかる
標本化 観測の時間間隔を離散的にする
例 1時間ごとの気温をはかる
• (左の図)気温のアナログ表現-観測の標本化
• (右の図)気温のディジタル表現-標本化と観測値の量子化
11
・標本化定理
標本化するときの周波数
1
を t とすると、 t の周波数まで復元で
2
1
きる 。 t をナイキスト周波数と呼ぶ。
2
例 上限が 2000Hz の情報を復元するには、時
間間隔 4000Hz 以上でサンプリング、標本化
すれば、元のデータが復元できる。
12
量子化と標本化の実際
• 情報の用途によって間隔の詳細度を決める
– コンピュータディスプレイ装置
• 赤(R)緑(G)青(B)を混色したRGB形式を用いている
• 各々 8 ビット=256種類の異なる色で表現
• 256×256×256=16,777,216色を表示できる
• 音楽CDのデジタル化
– 人は通常 20Hzから、個人差があるが 15,kHz ないし20 kHz 程度
の音を音として感じることができ、この周波数帯域を可聴域と いう。 .
– 標本化
• 標本化の基準:44.1kHz
• 1/44100=0.0000227秒間隔で音の情報を標本化
– 量子化
• 量子化のために16ビットを用いて、音の振幅を65536(2の16乗)
個の段階に分割している。周波数の対数を 65536 分の一に分
けているはずだと思う。(Weberの法則)
– 人間の視覚、聴覚の分解能を十分カバーできる詳細な量子化に
なっている
13
エイリアシング
• 対象にナイキスト周波数より高い周波数の周期
関数が含まれている場合に,誤った関数が復元
される現象をエイリアシングと呼ぶ
– (左の図)オリジナル画像
– (右の図)エイリアシングが生じた例
標本化定理 f(t) が W以上の周波
数成分を持たないとき
(i  0,1,2,.....) での
時刻 i / 2W 観測値
xi  f (
i
2W
)
から
もとの信号関数が一意に復元できる
sin( (2Wt  i))
f (t )   xi
 (2Wt  i)
i  

15
2.4 ディジタル符号化
ハミング距離 二つの記号列
x  ( x1, x2 ,...,xn ), y  ( y1, y2 ,..., yn )
の間の距離を
d ( x, y) : xi  yiとなる iの数
で定義する
16
A=(0 0 1 0 1 1 1 1 0 0 0 1 1 1 0 0)
B=(0 0 1 0 0 1 1 1 0 1 0 0 1 1 0 0)
ハミング距離は3である。
数学上の距離の定義:以下の3つの性質を持つこと
d ( x, y)  d ( y, x)  0
d ( x, y)  0  x  y
d ( x, z )  d ( x, y)  d ( y, z )
[演習] ハミング距離が上の3つの公理を満た
すことを示せ。