X - 北海道大学

1
北海道大学
Hokkaido University
情報エレクトロニクス学科共通科目・2年次・第1学期〔必修科目〕
講義「情報理論」
第3回
第2章 情報量とエントロピー(2.4〜2.6節)
2016/06/15
情報理論 講義資料
北海道大学 Hokkaido University
2
[復習]確率変数のエントロピー
確率変数Xの取りうる値をa1, a2,・・・, aM とし、Xがそれぞれの
値をとる確率がp1, p2,・・・, pM (ただし、p1+p2+・・・+pM=1)であ
るとき、確率変数XのエントロピーH(X)は、
M
H(X)=-∑ pi log2 pi
i =1
と定義される。
Xのエントロピー
= Xのあいまいさ
= Xの実現値を知ることにより減るあいまいさの量
= Xの値を知ることにより得られる平均情報量
2016/06/15
情報理論 講義資料
北海道大学 Hokkaido University
3
[復習]どっちの天気情報の方が価値が高い?
[1月の札幌]
[6月の東京]
晴
曇
雨
雪
割合(%)
5.5
1.2
0.2
93.1
自己情報量(ビット)
4.18 6.38 8.97 0.10
晴
曇
雨
雪
割合(%)
32.1 27.6 40.3
0
自己情報量(ビット)
1.63 1.85 1.31
∞
東京の6月の天気をX, 札幌の1月の天気をYとすれば
H(X) = - 0.055 log20.055 - 0.012 log20.012 - 0.002 log20.002 - 0.931 log20.931
=0.055×4.18 + 0.012×6.38 + 0.002×8.97 + 0.931×0.10
=0.4175
H(Y) = - 0.321 log20.321 – 0.276 log20.276 – 0.403 log20.403
=0.321×1.63 + 0.276×1.85 + 0.403×1.31
=1.56176
2016/06/15
2011/04/08
東京の6月の天気の方
が情報量が多い!
情報理論 講義資料
北海道大学 Hokkaido University
4
[余談]前回の演習問題に関する疑問
M
[疑問] H(X)=-∑ pi log2 pi の最大値がlog2 Mであることを示すのにシャノンの
i =1
M
補助定理を、q1=q2=・・・=qM=1/Mとして適用して-∑ pi log2 pi ≦log2 Mを導き、
i =1
補助定理の等号成立条件よりp1=p2=・・・=pM=1/MのときH(X)=log2Mの最大値
をとることを示した。q1,q2,…,qMに他の値を入れたらダメなの?
シャノンの補助定理
p1,p2,・・・,pMおよびq1, q2, ・・・, qM を
p1+p2+・・・+pM = 1,
q1 + q2 + ・・・ + qM ≦ 1
を満たす任意の非負の数とする(ただし、pi≠0 のときは qi≠0 とする)。
このとき、
M
M
–∑ pi log2 qi ≧ –∑ pi log2 pi
i=1
が成立する。
i=1
等号は qi = pi ( i = 1, 2, ・・・, M)のとき、またそのときに限って成立する。
2015/04/17
情報理論 講義資料
北海道大学 Hokkaido University
5
[余談]答
他の値を入れるといずれかのpiが消えず、定数で上から抑えるこ
とができない。q1=q2=・・・=qM=1/Mとすると任意のp1,…,pMに対し
M
M
M
−∑ pi log2 pi ≦−∑ i =1pi log2 (l/M)=−log2 (l/M) ∑ ip=1i
i =1
=1
で、うまくすべてのpiが消えている。
例えば、M=2、p1=p, p2=1−pのとき、q1=q, q2=1−qとしてシャノンの
補助定理を適用すると
H(p)≦−plog2q−(1−p)log2(1−q)=plog2((1−q)/q)−log2(1−q)
が任意の0≦p≦1に対して成り立つ。これは、定数qに対し、
エントロピー関数H(x)は、直線y=xlog2((1−q)/q)−log2(1−q)以下
であることを示している。
2015/04/17
情報理論 講義資料
北海道大学 Hokkaido University
6
[余談]答(つづき)
直線
y=xlog2((1−q)/q)−log2(1−q)
はx=qの座標でエントロピー関数
の曲線
y=−xlog2x−(1−x)log2(1−x)
と接する直線となる。
q=1/2のとき、xに依存しない
定数値をとる直線y=1になる。
2015/04/17
情報理論 講義資料
北海道大学 Hokkaido University
7
結合エントロピー
確率変数XとYが独立 → XとYの値を同時に知ることによって
H(X)+H(Y)の平均情報量を得る
XとYが独立でない場合は?
XとY の結合確率分布とそれぞれの確率分布
Y
[例]晴と雨の2値の値をとる天気Xと、 P(x,y)
P(x)
1万円以上 1万円未満
1万円以上と1万円未満の2値の値を
0.5
0.1
0.6
晴
X
とるアイスクリームの売り上げYが、
0.2
0.2
0.4
雨
右図のような分布に従っているとする。 P(y)
0.7
0.3
このとき、天気Xとアイスクリームの
売上Yを同時に知ることにより得られる平均情報量は?
2016/06/15
情報理論 講義資料
北海道大学 Hokkaido University
8
結合エントロピー(つづき)
XとY の結合確率分布とそれぞれの確率分布
確率変数Zを
Y
Z=(X,Y)∈{(晴,1万円以上),(晴,1万円未満), P(x,y)
P(x)
1万円以上 1万円未満
(雨,1万円以上),(雨,1万円未満)}
晴
0.5
0.1
0.6
とすれば、XとYの値を同時に知ることに X 雨
0.2
0.2
0.4
よって得られる平均情報量は
P(y)
0.7
0.3
H(Z) = -P(晴,1万円以上)log2P(晴,1万円以上)
-P(晴,1万円未満)log2P(晴,1万円未満)
-P(雨,1万円以上)log2P(雨,1万円以上)
-P(雨,1万円未満)log2P(雨,1万円未満)
=-0.5log20.5-0.1log20.1-0.2log20.2-0.2log20.2≈1.76 (bit)
XとYの結合エントロピー H(X,Y)=-∑∑P(x,
y)log2P(x, y)
y
x
2016/06/15
情報理論 講義資料
北海道大学 Hokkaido University
9
結合エントロピーの性質
0≦H(X,Y)≦H(X)+H(Y)
H(X,Y)=H(X)+H(Y)はXとYが独立のときのみ成立
(証明)定義より0≦H(X,Y)は明らか。H(X,Y)≦H(X)+H(Y)を証明する。
H(X)=-Σp(x)log
2p(x)=-ΣΣp(x,y)log2p(x)
x
x y
H(Y)=-Σp(y)log2p(y)=-ΣΣp(x,y)log2p(y)
x y
y
よってシャノンの補助定理より
H(X)+ H(Y)=-ΣΣp(x,y)log2p(x) p(y)≧ -ΣΣp(x,y)log2p(x,y)= H(X,Y)
x y
x y
等号成立はすべてのx,yに対してp(x,y)=p(x) p(y)のとき、
つまりXとYが独立のときのみである。
2016/06/15
情報理論 講義資料
北海道大学 Hokkaido University
10
条件付きエントロピー


Y で条件付けた
Xの条件付分布
アイスクリームの売り上げY で条件付けた
Y
天気Xの確率は P(x|y)=P(x, y)/P(y) より
P(x | y)
1万円未
表のようになる。
1万円以上
満
アイスクリームの売上が1万円以上で
あったときいた後、天気のあいまいさは
X
晴
雨
5/7
2/7
1/3
2/3
H(X | 1万円以上)= H(5/7)=0.8631 (bit)
というエントロピーで表されるはずである。 H(x)=−xlog2x−(1−x)log2(1−x)

同様にアイスクリームの売上が1万円未満であったときいた後、天気
のあいまいさは
H(X | 1万円未満)= H(1/3)=0.9183 (bit)
である。
2016/06/15
情報理論 講義資料
北海道大学 Hokkaido University
11
条件付きエントロピー(つづき)

アイスクリームの売り上げが、
1万円以上、1万円未満である確率は、
それぞれ 0.7、0.3であるから、
あいまいさを平均すると、
Y で条件付けた
Xの条件付分布
Y
P(x | y)
1万円以上
晴
X
雨
5/7
2/7
1万円未
満
1/3
2/3
H(X | Y)=0.7×0.8631+0.3×0.9183≈0.8797 (bit)
となる。
H(X|Y)はYの情報を得た後のXの平均のあいまいさ
Y で条件をつけた Xの条件付エントロピー H(X | Y)
def
H(X|Y)=-∑y P(y)∑ P(x|y)log2P(x| y)=-∑∑P(x,
y)log2P(x| y)
x y
x
2016/06/15
情報理論 講義資料
北海道大学 Hokkaido University
12
条件付きエントロピーの性質
(1) H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)
(2) 0≦H(X|Y)≦H(X) (H(X|Y)=H(X)はXとYが独立のときのみ成立)
(3) 0≦H(Y|X)≦H(Y) (H(Y|X)=H(Y)はXとYが独立のときのみ成立)
(証明)(1) H(X,Y)=-∑∑P(x, y)log2P(x, y)
x
y
p(x,y)=p(x)p(y|x)
=-∑∑P(x,
y)log2P(x)P(y|x)
x y
=-∑∑P(x, y)log2P(x) -∑∑P(x,
y)log2P(y|x)
y
x
y
x
=-∑P(x)log2P(x) -∑P(x)∑P(y|x)log2P(y|x)=H(X)+H(Y|X)
x
x
y
H(X,Y)=H(Y)+H(X|Y)も同様。
(2) 0≦H(X|Y)は定義より明らか。H(X|Y)≦H(X)を証明する。
(1)より
H(X|Y)=H(X,Y)-H(Y)
H(X,Y)≦H(X)+H(Y)であるから
H(X|Y)≦H(X)
等号成立はH(X,Y)=H(X)+H(Y)のときであるから、XとYが独立のとき
(3) (2)と同様。
2016/06/15
情報理論 講義資料
北海道大学 Hokkaido University
13
アイスクリームの売上から得られる情報量は?
[問題]アイスクリームの売上Yから得られる
天気Xに関する平均情報量はどのくらいか。
YのXに関する平均情報量
=Yの値を知ることによるXに関する
あいまいさの減少量。
天気Xのエントロピー H(X)は
H(X) =H(0.6)=0.9710 (bit)
XとY の結合確率分布とそれぞれの確率分布
P(x,y)
Y
P(x)
1万円以上 1万円未満
0.5
0.1
0.6
晴
X
0.2
0.2
0.4
雨
P(y)
0.7
0.3
Yの値を知ることによりXのエントロピーはどれだけ減少するか?
2016/06/15
情報理論 講義資料
北海道大学 Hokkaido University
14
相互情報量


アイスクリームの売上Yをきいたとき、残っている天気Xに関するあいまいさ
は、Yで条件をつけたXの条件付エントロピー
H(X | Y)=0.8797 (bit)
であるから、結局、アイスクリームの売上Yを知ることにより、天気Xについて
I(X;Y ) = H(X)-H(X | Y)
= 0.9710-0.8797=0.0913 (bit)
だけ、あいまいさが減少することになる。
すなわち、アイスクリームの売上によってI(X;Y )=0.0913 ビットだけの平均
情報量が得られることを意味する。
XとYの相互情報量(mutual information) I(X;Y )
def
I(X;Y )= H(X)-H(X | Y)
XとYの相互情報量はYの値を知ることにより得られるXに関する平均情報量
2016/06/15
情報理論 講義資料
北海道大学 Hokkaido University
15
相互情報量の性質(1)
(1) I(X;Y )=H(X)-H(X | Y)=H(Y)-H(Y | X)
=H(X)+H(Y)-H(X, Y)
(2) 0≦ I(X;Y ) ≦min{H(X), H(Y)}
H(Y)
H(X)
H(X | Y)
I(X;Y )
H(Y | X)
[(1)の証明] 相互情報量 I(X;Y )= H(X)-H(X | Y) に
H(X, Y)
H(X)=-∑ P(x)log2P(x)=-∑∑P(x, y)log2P(x)
x y
x
相互情報量とエントロピーの関係
および
H(X|Y)=-∑ P(y)∑ P(x|y)log2P(x| y)=-∑∑P(x, y)log2P(x| y)
を代入すると、
y
x
x
y
P(x | y)
P(x, y)
I(X;Y )=∑∑P(x, y)log2
=∑∑P(x, y)log2 P(x)P(y)
P(x)
x y
x y
を得る。この式はXとYに関し、全くの対称である。したがって、
P(x | y)p(y) = P(x, y)
I(X;Y )=I(Y; X)=H(Y)-H(Y | X)
となることが分かる。さらにH(X,Y)=H(X)+H(Y|X)であるから以下の式も成り立つ。
I(X;Y )=H(X)+H(Y)-H(X, Y)
2016/06/15
情報理論 講義資料
北海道大学 Hokkaido University
16
相互情報量の性質(2)
[(2)の証明] 0≦H(X|Y)≦H(X)であるから
0≦H(X)-H(X|Y)=I(X;Y )
等号成立はH(X|Y)=H(X)のとき、つまりXとYが独立(P(x, y)= P(x) P( y))のとき。
H(X | Y), H(Y | X)≧0であるから
I(X;Y ) ≦min{H(X), H(Y)}
2016/06/15
情報理論 講義資料