「情報」 (中村) オリジナル PPT (2010/05/07) 1 第2章 情報の表現 記号・符号化 整数の表現-2進法10進法16進法 10 進法 2 進法 16 進法 グレイ符号 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0 1 10 11 100 101 110 111 1000 1001 1010 1011 1100 1101 1110 1111 10000 0 1 2 3 4 5 6 7 8 9 A B C D E F 10 17 10001 11 00000 00001 00011 00010 00110 00111 00101 00100 01100 01101 01111 01110 01010 01011 01001 01000 10000 11001 10進法と16進法 の表記の比較 A45F = 42,079 44,604 = FA3C グレイ符号 構成法は HTML で説明 3 文字・記号とコード化の種類(1バイト文字=半角文字) ■ASCIIコード(1バイト文字=半角文字) (American Standard Code for Information Interchange) 1963年にアメリカ規格協会(ANSI)で定められた文字コード。 7ビット128文字で構成されている。94文字がアルファベット・数字・ 記号等の印刷可能な文字。34文字が空白文字と制御記号。 滅多に文字化けしない。 ・実際には7ビットに、1 ビットのパリティビット加えた 8 ビット (1 バイト) で扱われる。 Def. 1バイト=8ビット それゆえ、メモリなどの容量を示すのにバイトが使われる。(基本 的に文字数をそのまま表すから。) 4 ASCII コード a (0110 0001) b (0110 0010), c (0110 0011) これらの8ビットの 0, 1 の列の内、最後の7ビットで文 字を表現し、ゆえに、2の7乗つまり128通りあるから、 計算機内では余分な 1 ビットを加えて、8 ビット= 1 バ イト (byte) で表現している。 ( 1 byte = ASCII 文字 1 文字) ■ JISコード (1バイト文字=半角文字) ASCII で表現される文字は、英字、数字、他に ? # などの いくつかの記号である。日本ではこれにカタカナ(半角カナ) を加えてJIS コードとしている。 2バイト文字(全角文字)(日本語の表記) ■ JISコード:日本語で漢字も含めて扱おうとすると、128通り では足りない。そこで日本では JIS(日本工業規格)によって漢 字を表わすコードが定められている。そこでは漢字、ひらがな、 カタカナを 16ビット(2バイト)で表わす。 16ビットの列は、2の16乗=65536通りあるので、ひらかな、 カタカナと日常に必要とされる程度の漢字をそこに割り当てて、 表現できる。 JIS コードを持つ漢字のうち、比較的良く使われ る漢字を第一水準(2965字)、その他を第二水準(3388字)と区 別してある。 例 漢字(全角文字)のJIS コードの例。 JIS コードの 16ビット列は、通例4けたの16進数の列として表記され る。次がその例。左が16進数の4つ組、右がそのビット列。 中 --> 4 3 6 6 = (0100 0011 0110 0110) 村 --> 4 2 3 C = (0100 0010 0011 1100) 6 ■Shift JISコード Microsoftによって考案された、日本で一番使用されている 日本語文字コード。 主にMS-DOS、Windows、Mac OS、OS/2等のOSで広く使用さ れる。パソコンで使われている。 半角カナを扱うことが可能。 ASCII部分は、7bitのJIS X 0201のローマ字で表現しているた め、 ・バックスラッシュ(半角の\)⇒円記号(\) ・ティルダ(~)⇒オーバースコア( ̄)の違いがある。 7 ■EUC-JPコード 主に UNIX、Linux で広く使用される。 情報棟の UNIX サーバでは EUC が使われている。その ため日本語をファイル名に使えない。 ■Unicode すべての文字を16ビット(2バイト)で表現し、1つの文字 コード体系で多国語処理を想定した文字コード。 2バイト表記の場合、最大65536文字の表現の為、漢字 圏の言語は全てをサポート出来ない問題がある。 JavaではUnicodeをデフォルトのデータ型としている。 情報棟端末ではUTF-8 を使っている。 8 情報表現の様々な側面(1) • 情報の説明の仕方の違い – 手続き的表現 • 時間をおった手順を説明 – 宣言的表現 • 対象間の関係や対象の属性を説明 • 情報の表現のされ方の違い – 記号表現 • 与えられた記号の集合と解釈するための規則体系 – パターン表現 • 構成要素間の時空間パターン 車両通行禁止の標識(日本) すべての車両通行禁止(欧州) 二輪車以外の車両通行禁止(欧州) • 記号の恣意性 これは本来、構造主義の用語である。別 述。 – 記号表現と命題の対応付けは恣意的である アナログ表現とディジタル表現の実際 量子化 観測値を離散的に取る 例 気温を 0.1 度単位ではかる 標本化 観測の時間間隔を離散的にする 例 1時間ごとの気温をはかる • (左の図)気温のアナログ表現-観測の標本化 • (右の図)気温のディジタル表現-標本化と観測値の量子化 11 ・標本化定理 標本化するときの周波数 1 を t とすると、 t の周波数まで復元で 2 1 きる 。 t をナイキスト周波数と呼ぶ。 2 例 上限が 2000Hz の情報を復元するには、時 間間隔 4000Hz 以上でサンプリング、標本化 すれば、元のデータが復元できる。 12 量子化と標本化の実際 • 情報の用途によって間隔の詳細度を決める – コンピュータディスプレイ装置 • 赤(R)緑(G)青(B)を混色したRGB形式を用いている • 各々 8 ビット=256種類の異なる色で表現 • 256×256×256=16,777,216色を表示できる • 音楽CDのデジタル化 – 人は通常 20Hzから、個人差があるが 15,kHz ないし20 kHz 程度 の音を音として感じることができ、この周波数帯域を可聴域と いう。 . – 標本化 • 標本化の基準:44.1kHz • 1/44100=0.0000227秒間隔で音の情報を標本化 – 量子化 • 量子化のために16ビットを用いて、音の振幅を65536(2の16乗) 個の段階に分割している。周波数の対数を 65536 分の一に分 けているはずだと思う。(Weberの法則) – 人間の視覚、聴覚の分解能を十分カバーできる詳細な量子化に なっている 13 エイリアシング • 対象にナイキスト周波数より高い周波数の周期 関数が含まれている場合に,誤った関数が復元 される現象をエイリアシングと呼ぶ – (左の図)オリジナル画像 – (右の図)エイリアシングが生じた例 標本化定理 f(t) が W以上の周波 数成分を持たないとき (i 0,1,2,.....) での 時刻 i / 2W 観測値 xi f ( i 2W ) から もとの信号関数が一意に復元できる sin( (2Wt i)) f (t ) xi (2Wt i) i 15 2.4 ディジタル符号化 ハミング距離 二つの記号列 x ( x1, x2 ,...,xn ), y ( y1, y2 ,..., yn ) の間の距離を d ( x, y) : xi yiとなる iの数 で定義する 16 A=(0 0 1 0 1 1 1 1 0 0 0 1 1 1 0 0) B=(0 0 1 0 0 1 1 1 0 1 0 0 1 1 0 0) ハミング距離は3である。 数学上の距離の定義:以下の3つの性質を持つこと d ( x, y) d ( y, x) 0 d ( x, y) 0 x y d ( x, z ) d ( x, y) d ( y, z ) [演習] ハミング距離が上の3つの公理を満た すことを示せ。
© Copyright 2024 ExpyDoc