1 北海道大学 Hokkaido University 情報エレクトロニクス学科共通科目・2年次・第1学期〔必修科目〕 講義「情報理論」 第9回 第5章 情報源符号化法 5.4 ひずみが許される場合の情報源符号化 2015/05/29 情報理論 講義資料 北海道大学 Hokkaido University 2 ひずみが許される場合とは? ある程度ひずみを許しても、1情報源記号あたりの平均符号長 を小さくしたい!(つまり、より小さくデータを圧縮したい) テキストの場合 ひずみを許す 符号化 0011010 1110111 6時にスタバでね。ちゃんと来いよ。 0001・・・ 復号 6時にスタバでねーちゃんと来いよ。 非常にまずい! 画像の場合 ほとんど問題ない ひずみを許す符号 ビットマップファイル (.bmp; 288 KB) 2015/05/29 jpegファイル (.jpg; 17.5 KB) 情報理論 講義資料 北海道大学 Hokkaido University 3 情報源符号化におけるひずみ 通信路でひずみが入るのではなく、符号化時にひずみを入れる ることを許す ひずみ ひずみ 情報源 S x 符号化 coding 通信路 Communication 理想的に伝達されると仮定 channel 復号 decoding y あて先 destination 図: 情報源出力 x と情報源復号結果 y ひずみ測度: x と y の相違を評価する関数 d(x, y) – 関数 d(x, y) が大きいほど、ひずみが大きい。また次の性質を持つ。 d(x, y)≧0 x=y のとき d(x, y)=0 – ひずみ測度の平均値を平均ひずみと呼び、d で表す。 d=∑∑d(x, y)P(x, y) x y 2015/05/29 情報理論 講義資料 北海道大学 Hokkaido University 4 ひずみ測度の例 例1 情報源アルファベットを A={0, 1} とし、ひずみ測度を d(x, y) =0 ; x=y 1 ; x≠y とする。このとき、平均ひずみは d =∑∑d(x, y)P(x, y)=P(1, 0)+P(0, 1) P(1, 0):入力 1 → 出力 0 P(0, 1):入力 0 → 出力 1 x y となる。これは、要するに、符号器の出力が元の情報源出力 と異なる確率であり、通常ビット誤り率と呼ばれる。 例2 情報源アルファベットを有限個の整数または実数の集合 としよう。このとき、ひずみ測度を d(x, y) = | x-y |2 とすれば、平均ひずみは2乗平均誤差(mean square error)と 呼ばれる量となる。ひずみの評価量として非常によく用いられる。 2015/05/29 情報理論 講義資料 北海道大学 Hokkaido University 5 ひずみが許される場合、情報源符号化定理はどうなるか? [情報源符号化定理] 情報源S は、任意の正数εに対して、1情報源記号あたりの平均符号長Lが H(S) ≦ L < H(S) +ε となるような2元瞬時符号に符号化できる。 H(S)が限界! しかし、どのような一意復号可能な2元符号を用いても、 平均符号長がH(S)より小さくなるような符号化はできない。 ひずみを許せば、どのくらい平均符号長の限界を下げられるか? S:記憶の無い定常情報源、X:任意の時点においてSから出力される情報源記号 – 1情報源記号あたりの平均符号長の下限 = 情報量H(S)=H(X) – ひずみを許した場合、出力Yの値を知っても、元の入力Xに関して、 なお平均 H(X |Y ) のあいまいさが残る。 ひずみを許した – 伝えられる情報の量は I(X;Y )=H(X)-H(X |Y ) 場合の限界! 2015/05/29 情報理論 講義資料 北海道大学 Hokkaido University 6 ひずみが許される場合の情報源符号化定理 相互情報量I(X;Y ) が同じでも、平均ひずみ d は同じとは限らない ⇔ 平均ひずみ d が同じであっても、I(X;Y )は符号化の仕方で異なる ある与えられた値 D に対し、平均ひずみ d が d≦D を満たす条件の下で、あらゆる情報源符号化法を考えたときの 相互情報量 I(X;Y ) の最小値を考え、これを R(D) と表す。すなわち、 R(D) = min {I(X;Y )} d≦D これを情報源S の速度・ひずみ関数(rate-distortion function)と呼ぶ。 [ひずみが許される場合の情報源符号化定理] 平均ひずみ d を D 以下に抑えるという条件の下で、任意の正数εに対して、 情報源S を1情報源記号あたりの平均符号長Lが R(D) ≦ L < R(D) +ε となるような2元符号へ符号化できる。しかし、どのような符号化を行っても、 d ≦ D である限り、LをR(D)より小さくすることはできない。 2015/05/29 情報理論 講義資料 北海道大学 Hokkaido University 7 速度-ひずみ関数(1) R(D) は、d ≦ D を満たす、あらゆる情報源符号化法を考えたときの I(X;Y ) の最小値。 では実際、これをどのようにして求めるのか? 情報源符号化法を変えると、条件付確率 P( y| x) が変わる! → I(X;Y ) の最小化は、d ≦D の条件の下で P( y| x) を変えることで行う* → 下図のような通信路を考え、この通信路の特性を変えることで I(X;Y ) の最小化を計ると解釈できる。この仮想的通信路を試験通信路と呼ぶ。 情報源S P(x) x 試験通信路 P( y | x) y あて先 I(X;Y )最小化 d≦D 図: 試験通信路による速度・ひずみ関数R(D) の解釈 *任意の条件付確率 P( y| x) を与えるような情報源符号化・復号法が存在する 2015/05/29 情報理論 講義資料 北海道大学 Hokkaido University 8 速度-ひずみ関数(2) 条件付確率 P( y| x) を用いれば、相互情報量 I(X;Y ) は P(x, y) I(X;Y )=∑∑P(x, y)log2 P(x)P(y) x y P(y|x) =∑P(x)∑P(y|x) log2 ① P(y) y x と表せる。ここに P(y) は P(x, y)=P(x)P(y|x) P(y) =∑P(x) P(y | x) x により計算できる。また、d ≦D という条件は d =∑P(x)∑P(y | x) d(x, y) ≦ D x y ② P(y|x) が変数 他は既知 と表せる。また、条件付確率は P(y | x) ≧ 0 ∑P(y | x) = 1 for each x y を満たさなければならない。 ③ ④ 一般には難しい 式②~④の条件の下に、式①のI(X;Y )を最小化すればよい! 2015/05/29 情報理論 講義資料 北海道大学 Hokkaido University 9 [例]記憶のない2元情報源の場合(1/3) 1, 0 を確率 p, 1-p で発生する記憶のない2元情報源Sを考える。 また、ひずみ測度としては 0 ; x=y d(x, y) = 1 ; x≠y を用いるものとする。このとき、平均ひずみ d はビット誤り率となる。 この情報源に対して、0≦D≦0.5 が与えられたとき、 d≦D の元での速度・ひずみ関数 R(D)を求めよう。 相互情報量I(X;Y )=H(X)-H(X |Y ) H(X)= H(p) なので、 誤り源 H(X|Y) を最大化すればよい。 ここで、Y は左図のように、 1の発生確率が d である ような誤り源の出力E と X の排他的論理和で表せる。 2015/05/29 D>0.5 の場合は 誤る確率の方が 大きいことを意味する PE(1)=d 情報源S PX(1)=p X E ⊕ Y=X E 試験通信路 図: 2元情報源に対する試験通信路 情報理論 講義資料 北海道大学 Hokkaido University 10 [例]記憶のない2元情報源の場合(2/3) Y=X ⊕ E であるから、X=Y ⊕ E となる。したがって、 H(X | Y)=H(Y ⊕ E | Y)=H(E | Y) が得られる。 H(E | Y) は Y の値を知ったときの E のあいまいさであるから、何 も知らないときの E のあいまいさ H(E) より大きくなることはない。 さらに、誤り源に記憶がなく定常であれば、H(E)= H( d ) である が、そうでなければ、H(E)<H( d ) であるから、 H(E | Y) ≦ H(E) ≦ H( d ) H(Y) となる。それゆえ H(X | Y) ≦H( d ) H(E) H(E | Y) I(E;Y ) H(Y | E) を得る。d≦D≦1/2 なので、さらに H( d ) ≦H(D) となる。したがって、相互情報量 I(X;Y ) は、 I(X;Y )=H(X)-H(X |Y )≧ H(p)-H(D) 2015/05/29 H(E, Y) 情報理論 講義資料 北海道大学 Hokkaido University 11 [例]記憶のない2元情報源の場合(3/3) d=Dで誤り源が無記憶定常で情報源Sと独立であるとき、等号が成立 (I(X;Y )= H(p)-H(D)) するので、 記憶のない定常2元情報源S の速度・ひずみ関数は R(D)= H(p)-H(D) で与えられることが導けた。 左図で分かるように、速度・ひずみ 関数は、Dに関して単調減少であり、 下に凸な関数である。一般の速度・ p=0.5 ひずみ関数も同様な性質を持つこと が証明されている。 p=0.2 p 記憶のある情報源の場合にも、 =0.1 I(X;Y )=lim I(Xn;Yn)/n R(D) n→∞ の最小値として、速度・ひずみ関数を 定義することができる。 2015/05/29 D 図: 2元情報源の速度・ひずみ関数 情報理論 講義資料 北海道大学 Hokkaido University 12 ひずみが許される場合の情報源符号化法(1) [ひずみが許される場合の情報源符号化定理] 平均ひずみ d を D 以下に抑えるという条件の下で、任意の正数εに対して、 情報源S を1情報源記号あたりの平均符号長Lが R(D) ≦ L < R(D) +ε となるような2元符号へ符号化できる。しかし、どのような符号化を行っても、 d ≦ D である限り、LをR(D)より小さくすることはできない。 ひずみが許される場合の情報源符号化定理は、1情報源記号あたりの平均 符号長を、速度・ひずみ関数 R(D) にいくらでも近づく符号化法の存在を示 している。では、具体的な符号化方法はあるのか? – ひずみのない場合に比べて、はるかに難しい! 2015/05/29 ベクトル量子化 変換符号化 予測符号化 etc. 参考図書 「情報・符号・暗号の理論」 今井秀樹 著、電子情報通信学会 情報理論 講義資料 北海道大学 Hokkaido University 13 ひずみが許される場合の情報源符号化法(2) x 情報源S P(x) CDへの符号化 x→w dn(x, w)最小 x, w は長さ n の系列 w ひずみのない 場合の情報源 符号化 w∈CD 図5.6 ひずみが許される場合の情報源符号化法 1) まず、情報源S の情報源アルファベットA の記号からなる長さ n の系列を N 個選び、それを符号語とする符号CD を作っておく。 2) 情報源S から発生する長さ n の系列 x=x1x2・・・xn に対し、CDの中から、 ひずみ測度 n d(x, y)は与えられる dn(x, w)=∑ d(xi, wi) i=1 が最小となるような符号語 w=w1w2・・・wn ∈CD を選ぶ。 3) この符号語に対し、ひずみのない場合の情報源符号化を行う。 2015/05/29 情報理論 講義資料 北海道大学 Hokkaido University 14 ひずみが許される場合の情報源符号化法(3) 図5.7 はこの符号化法の概念図 n次ベクトル空間 – 図の各点は長さ n の系列 – 2重丸(青)で示されているのが CDの符号語 – ひずみ測度が、左図において 距離に比例するものとする。 このとき、符号化は図の矢印の ように行われる。 – つまり、この図の例では符号語と そのまわりの8個の系列を一つの 図: CDへの符号化の概念図 符号語で代表させてしまう。 – 符号CD は、このように符号化したときに、平均ひずみができるだけ小さ くなるように選ぶべきである。また、平均ひずみが同じであれば、符号 語数の少ないことが望ましい。 CDの具体的構成法は 2015/05/29 知られていない 情報理論 講義資料 北海道大学 Hokkaido University 15 [例]無記憶2元情報源のひずみあり符号化(1/2) 1, 0 を確率 p, 1-p で発生する記憶のない2元情報源を考える。 また、ひずみ測度としては 0 ; x=y d(x, y) = 1 ; x≠y を用いるものとする。このとき、平均ひずみ d はビット誤り率となる。 ここで、CD として CD={000, 111} を考える。 CDへの符号化は、情報源系列とのひずみが最も小さい符号を 選ぶことにより行われる。すなわち 000 001 010 100 とすればよい。 2015/05/29 000 111 110 101 011 111 情報理論 講義資料 北海道大学 Hokkaido University 16 [例]無記憶2元情報源のひずみあり符号化(2/2) このとき、平均ひずみは1情報源記号あたり d=1/3 [3p(1-p)2 + 3p2(1-p)] となる。また、CDに符号化したとき、 符号語000, 111の発生確率はそれぞれ、 H(p) LB 3 2 2 3 (1-p) +3p(1-p) 、3p (1-p)+p d であるから、これに対し、ひずみのない 情報源符号化を行えば、1情報源記号 あたりの平均符号長 L は LB=1/3[H( (1-p)3 + 3p(1-p)2 )] LI にいくらでも近づけることができる。 一方、d だけひずみを許すとき、平均 符号長 L の下限は LI= H(p)-H( d ) p となることが判る。 図5.8 例5.5の符号化による平均ひずみ d および LB は LI の2倍近い値になっている。 1情報源符号あたりの平均符号長の下限LB と LI 2015/05/29 情報理論 講義資料
© Copyright 2024 ExpyDoc