Information Theory

前回の復習
𝑋: タイガースの試合結果,𝑃𝑋 𝑤 = 𝑃𝑋 𝑑 = 𝑃𝑋 𝑙 = 1/3
𝑌: 阪神ファンの友人のtweet
𝑋
𝑤
𝑑
𝑙
𝑌
やったー
くやしー
くやしー
p.13 のように同時確率の表を書き,周辺確率も求めよ
p.34 に示した3つの異なる方法で,相互情報量 𝐼(𝑋; 𝑌)を求めよ
(ページ番号は前回スライドのもの)
1
相互情報量
相互情報量の計算法は3通りある
1. 𝐼 𝑋; 𝑌 = 𝐻1 𝑋 + 𝐻1 𝑌 − 𝐻1 (𝑋, 𝑌)
2. 𝐼 𝑋; 𝑌 = 𝐻1 𝑋 − 𝐻1 𝑋|𝑌
3. 𝐼 𝑋; 𝑌 = 𝐻1 𝑌 − 𝐻1 𝑌|𝑋
全部同じ値になるが,計算の手間が違う,かも
𝐻1(𝑋, 𝑌)
𝐻1(𝑋)
𝐻1(𝑋|𝑌)
𝐻1(𝑌)
𝐻1(𝑌|𝑋)
𝐼(𝑋; 𝑌) = 𝐼(𝑌; 𝑋)
2
練習問題:手順1による𝐼(𝑋: 𝑌)の計算
𝑋 𝑌 や
1/3
𝑤
0
𝑑
0
𝑙
1/3
いくつかの基本的なエントロピーを計算
はじめに,同時確率と周辺確率を
計算する
𝐻1 𝑋, 𝑌
𝐻1 𝑋 =
𝐻1 𝑌 =
1
1
1
1
1
1
= − log 2 − log 2 − log 2
3
3
3
3
3
3
1
1
1
1
1
1
− log 2 − log 2 − log 2 =
3
3
3
3
3
3
1
1
2
2
− log 2 − log 2 = 0.918 bit
3
3
3
3
く
0
1/3
1/3
2/3
1/3
1/3
1/3
= 1.585 bit
1.585 bit
𝐼 𝑋; 𝑌 = 𝐻1 𝑋 + 𝐻1 𝑌 − 𝐻1 𝑋, 𝑌 = 0.918 bit
3
練習問題:手順2による𝐼(𝑋: 𝑌)の計算
𝑋
𝐻1 (𝑋|𝑌)を求める
𝑌 = 「やったー」のとき
𝑃𝑋|𝑌 𝑤 や = 1, 𝑃𝑋|𝑌 𝑑 や = 𝑃𝑋|𝑌 𝑙 や = 0
𝑌
𝑤
𝑑
𝑙
𝐻1 𝑋 𝑌 = や = −1 log 2 1 − 0 log 2 0 − 0 log 2 0 = 0
や
1/3
0
0
1/3
く
0
1/3
1/3
2/3
1/3
1/3
1/3
𝑌 = 「くやしー」のとき
𝑃𝑋|𝑌 𝑤 く = 0, 𝑃𝑋|𝑌 𝑑 く = 𝑃𝑋|𝑌 𝑙 く = 1/2
1
2
1
2
1
2
1
2
𝐻1 𝑋 𝑌 = く = −0 log 2 0 − 0 log 2 − log 2 = 1
𝐻1 𝑋 𝑌 = 𝑃𝑌 や 𝐻1 (𝑋|𝑌 = や) + 𝑃𝑌 く 𝐻1 (𝑋|𝑌 = く)
1
3
2
3
= × 0 + × 1 = 0.667 bit
𝐼 𝑋; 𝑌 = 𝐻 𝑋 − 𝐻 𝑋 𝑌 = 1.585 − 0.667 = 0.918 bit
4
練習問題:手順3による𝐼(𝑋: 𝑌)の計算
𝐻1 (𝑌|𝑋)を求める
𝑋 = 𝑤のとき:
𝑃𝑌|𝑋 や 𝑤 = 1, 𝑃𝑌|𝑋 く 𝑤 = 0
...𝐻1 𝑌 𝑋 = 𝑤 = 0
𝑋 = 𝑑のとき:
𝑋
𝑌
𝑤
𝑑
𝑙
や
1/3
0
0
1/3
く
0
1/3
1/3
2/3
1/3
1/3
1/3
𝑃𝑌|𝑋 や 𝑑 = 0, 𝑃𝑌|𝑋 く 𝑑 = 1
...𝐻1 𝑌 𝑋 = 𝑑 = 0
𝑋 = 𝑙 のとき:
𝑃𝑌|𝑋 や 𝑙 = 0, 𝑃𝑌|𝑋 く 𝑙 = 1
...𝐻1 𝑌 𝑋 = 𝑙 = 0
𝐻1 𝑌 𝑋 = 0 bit
𝐼 𝑋; 𝑌 = 𝐻 𝑌 − 𝐻 𝑌 𝑋 = 0.918 − 0 = 0.918 bit
5
本日の講義
通信路容量
情報源について
マルコフ情報源
情報源の拡大とエントロピー
Andrey Markov
1856-1922
レポート出題予告 / report assignment
4/28までに http://isw3.naist.jp/~kaji/lecture/に掲載予定
will be uploaded to the above URL by April 28
6
相互情報量と通信
情報通信に近い例で,相互情報量を考える
通信路 C
入力 𝑋={1, 2, 3, 4, 5, 6} 𝑋
出力 𝑌={𝐿, 𝑀, 𝐻}
1
2
3
4
5
6
𝐿
𝑀
𝑌
𝐻
この通信路 C を使ってサイコロの目を伝達する
... 伝達される情報量𝐼(𝑋; 𝑌)は?
7
手順1による計算
𝑌
𝑋
1
2
3
4
5
6
𝐿
𝑀
𝐻 𝑃𝑋 (𝑥)
1
1 1
1
1
1
1/6 0
0
1/6 𝐻 𝑋, 𝑌 = − log 2 − log 2 … − log 2 = 2.585
6
6 6
6
6
6
1/6 0
0
1/6
0 1/6 0
1/6 𝐻 𝑋 = − 1 log 1 − 1 log 1 … − 1 log 1 = 2.585
2
2
2
6
6 6
6
6
6
0 1/6 0
1/6
1
1 1
1 1
1
0
0 1/6 1/6
𝐻 𝑌 = − log 2 − log 2 − log 2 = 1.585
0
0 1/6 1/6
3
3 3
3 3
3
𝑃𝑌 (𝑦) 1/3 1/3 1/3
𝐻1(𝑋, 𝑌)
𝐻1(𝑋)
𝐻1(𝑌)
𝐼(𝑋; 𝑌)
この例では𝐻 𝑋, 𝑌 = 𝐻(𝑋)なので...
𝐼 𝑋; 𝑌 = 𝐻 𝑋 + 𝐻 𝑌 − 𝐻 𝑋, 𝑌 = 𝐻 𝑌 = 1.585 bit
8
相互情報量の意味付け
通信路の入力と出力の相互情報量
= その通信路が,どれだけ正確に情報を伝えるか
𝐻1(𝑋, 𝑌)
𝐻1(𝑋)
𝐻(𝑋|𝑌)
𝐻1(𝑌)
𝐼(𝑋; 𝑌)
𝐻 𝑋 = 2.585
𝐻 𝑋 𝑌 = 𝐻 𝑋, 𝑌 − 𝐻 𝑌 = 1.000
通信路の入力のエントロピーは 2.585 bit
通信路の出力を知っても,1.000 bit 分エントロピーが残る
通信路は,1.585 bit 分の情報しか伝達できていない
9
入力を取り替える
先ほどと同じ通信路 C
入力 𝑋={1, 2, 3, 4, 5, 6}
𝑋
出力 𝑌={𝐿, 𝑀, 𝐻}
1
2
3
4
5
6
𝐿
𝑀
𝑌
𝐻
同じ通信路 C を使って,公正でないサイコロの目を伝達する
𝑃𝑋 1 = 0.9
𝑃𝑋 2 = ⋯ = 𝑃𝑋 6 = 0.02
10
手順1による計算
𝑌
𝑋
1
2
3
4
5
6
𝐿
𝑀
𝐻 𝑃𝑋 (𝑥)
0.9 0
0
0.9 𝐻 𝑋, 𝑌 = −0.9 log 0.9 − 0.02 log 0.02 … = 0.701
0.02 0
0
0.02
0 0.02 0
0.02 𝐻 𝑋 = −0.9 log 0.9 − 0.02 log 0.02 … = 0.701
0 0.02 0
0.02
0
0 0.02 0.02 𝐻 𝑌 = −0.92 log 0.92 − 0.04 log 0.04 … = 0.482
0
0 0.02 0.02
𝑃𝑌 (𝑦) 0.92 0.04 0.04
𝐻1(𝑋, 𝑌)
𝐻1(𝑋)
𝐻1(𝑌)
𝐼(𝑋; 𝑌)
この例でも𝐻 𝑋, 𝑌 = 𝐻(𝑋)なので...
𝐼 𝑋; 𝑌 = 𝐻 𝑋 + 𝐻 𝑌 − 𝐻 𝑋, 𝑌 = 𝐻 𝑌 = 0.482 bit
11
相互情報量と入力の関係
同じ通信路でも,入力が変わると相互情報量も変わる
C
𝐼 𝑋; 𝑌 = 1.585 bit
C
𝐼 𝑋; 𝑌 = 0.482 bit
通信路には,得意な入力,不得意な入力がある
通信路の性能
=最も得意な入力につないだ時の相互情報量
=相互情報量の最大値
=通信路容量(講義の最終回に続く... )
12
情報源のお話
エントロピー,相互情報量の話は,ここでいったん小休止
通信路に接続する入力(=情報源)について議論する
情報源の諸性質
マルコフ情報源
13
本講義で扱う情報源
情報源は,1単位時間に1個の記号を出力する
(離散時間情報源)
出力記号は有限集合の中から確率的に選ばれる
(デジタル情報源)
現実世界では,上記条件を満たさない情報源も多数存在...
連続時間 / アナログ情報源
標本化・量子化等の操作により,離散時間の
デジタル情報源として近似できる場合が多い
14
記法について
𝑆 を離散時間デジタル情報源とする
𝑋𝑡 : 時刻 𝑡 (=1, 2, ...) に出力される記号を表す確率変数
𝐷 𝑋1 = ⋯ = 𝐷 𝑋𝑡 = ⋯ = 𝑀(実現値の集合)
集合𝑀が𝑘個の要素を持つとき... 𝑘 元情報源
例: 𝑆 = サイコロ
𝑀={
}
𝑋𝑡 の値は,確率的に定まる
𝑋2 =
𝑋8 =
15
情報源の基本性質1:無記憶性
情報源が無記憶 ⇔
′
任意の 𝑡, 𝑎1 … 𝑎𝑡−1 , 𝑎1′ … 𝑎𝑡−1
, 𝑎𝑡 に対し
𝑃𝑋𝑡 |𝑋1 …𝑋𝑡−1 𝑎𝑡 𝑎1 … 𝑎𝑡−1 = 𝑃𝑋𝑡 |𝑋1 …𝑋𝑡−1 𝑎𝑡 𝑎′1 … 𝑎′𝑡−1
過去の出力は,将来出力される記号の確率分布に影響しない
情報源が無記憶なら,𝑃𝑋𝑡 |𝑋1 …𝑋𝑡−1 𝑎𝑡 𝑎1 … 𝑎𝑡−1 = 𝑃𝑋𝑡 (𝑎𝑡 )
(条件付き確率=周辺確率)
無記憶でない情報源 = 記憶のある情報源
自然言語が代表例: 𝑃𝑋𝑡 |𝑋𝑡−1 𝑢 𝑞 ≫ 𝑃𝑋𝑡 |𝑋𝑡−1 𝑢 𝑢
16
情報源の基本性質2:定常性
情報源は定常 ⇔
任意の 𝑛, 𝑡, 𝑎1 … 𝑎𝑛 に対し
𝑃𝑋1 …𝑋𝑛 (𝑎1 … 𝑎𝑛 ) = 𝑃𝑋𝑡 …𝑋𝑡+𝑛−1 (𝑎1 … 𝑎𝑛 )
出力される記号の確率分布は,いつでも同じ
𝑛 = 1の場合を考えると,𝑃𝑋1 𝑎 = ⋯ = 𝑃𝑋𝑡 𝑎 = ⋯ = 𝑃𝑋 (𝑎)
... 1個の確率変数 𝑋 で,全ての確率変数を代表できる
定常でない情報源 = 非定常情報源
天気...「雪の降る確率」は季節に依存
17
情報源の基本性質2+:エルゴード性
定常情報源がエルゴード的 ⇔
「情報源から出力される一続きの記号列」
の中に含まれる記号 𝑎 の割合
サイコロ投げはエルゴード的
1個のサイコロを100回投げると,100/6回は 1が出る
喫煙記録は非エルゴード的
1人の成人の100日間の喫煙日数 ≠ 成人喫煙率
【定理】
無記憶な定常情報源は,必ずエルゴード的
記憶のある定常情報源には,エルゴード的でないものも存在
18
無記憶
非定常
アナログ
記憶のある
デジタル
情報源の性質:まとめ
定常
離散時間
エルゴード的
連続時間
19
定常無記憶情報源
定常で無記憶な情報源
サイコロ,コイン投げ,etc.
エルゴード的となることが保証されている
𝑃𝑋1 …𝑋𝑛 𝑎1 … 𝑎𝑛 = 𝑛𝑖=1 𝑃𝑋 𝑎𝑖
⇒ 理論的に取り扱いが容易
...本講義でも,定常無記憶情報源に的を絞って議論する
が,
定常無記憶情報源に専念する前に,
記憶のある情報源について簡単に紹介する
20
(狭義の)マルコフ情報源
記憶のある情報源の(比較的単純な)モデル
次に出力される記号は,直前 𝑚 個の出力記号の
影響を受ける (𝑚 次マルコフ情報源)
𝑃𝑋𝑡 |𝑋1 …𝑋𝑡−1 𝑎𝑡 𝑎1 … 𝑎𝑡−1
= 𝑃𝑋𝑡 |𝑋𝑡−𝑚 …𝑋𝑡−1 𝑎𝑡 𝑎𝑡−𝑚 … 𝑎𝑡−1
Andrey Markov
1856-1922
𝑚 = 0  無記憶情報源と一致する
𝑚 = 1  単純マルコフ情報源,と呼ばれる
21
(一般化)マルコフ情報源
状態遷移図により定義される情報源
狭義のマルコフ情報源を真に含む
情報源は,𝜎個ある状態のどれか1つを取る
遷移辺に付与された確率に従い,状態が遷移する
状態遷移の際は,遷移辺に付与された記号が出力される
(初期状態については後述)
𝑠1
𝜎 = 3:
b / 0.5
a / 0.4
b / 0.6
a / 0.8
状態 𝑠2 のとき
a / 0.5
0.8 の確率で a を出力して 𝑠2 に
𝑠2
𝑠3
0.2 の確率で b を出力して 𝑠3 に
b / 0.2
22
正規マルコフ情報源
以下のようなマルコフ情報源は,ある意味で「不健全」
袋小路的な部分がある
周期的な動作をする
(既約でない)
正規マルコフ情報源 ... 「健全な」マルコフ情報源
任意の状態組 𝑠, 𝑠 ′ , ある程度大きな任意の整数𝑛に対し,
𝑠 から 𝑠′への 𝑛ステップの状態遷移が存在する
...十分時間をかければ,どの状態からどの状態へも遷移可能
以降の議論では,正規マルコフ情報源のみを考える
23
マルコフ情報源の初期状態
マルコフ情報源の初期状態は,確率分布により与えられる
𝑆𝑡 ...時刻 𝑡 における状態を表す確率変数
𝑆𝑡 の確率分布 ... 𝜎個の確率の組で表現可能
𝐩𝑡 = (𝑃𝑆𝑡 𝑠0 , … 𝑃𝑆𝑡 𝑠𝜎 ) : 時刻 𝑡 の確率ベクトル
𝐩0 を指定することで,初期状態を規定する
𝑠1
a / 0.4
a / 0.8
𝑠2
b / 0.5
b / 0.6
a / 0.5
b / 0.2
𝑠3
𝐩0 = 1,0,0
...必ず𝑠1 からスタート
𝐩0 = 0,0.5,0.5
...𝑠2 か𝑠3 のどちらかが,
等確率で初期状態に
24
状態の遷移と確率ベクトル
𝐩0 = 1,0,0
時刻0では,確率1で状態𝑠1
時刻1では,
確率 0.4で状態𝑠2
確率 0.6で状態𝑠3
𝐩1 = (0,0.4,0.6)
より一般的に, 𝐩𝑡+1 = 𝐩𝑡
𝑠1
a / 0.4
a / 0.8
𝑠2
b / 0.5
b / 0.6
a / 0.5
b / 0.2
𝑠3
0 0.4 0.6
0 0.8 0.2 となる
0.5 0.5 0
遷移確率行列 𝑇:
(𝑖, 𝑗)成分は,𝑠𝑖 から𝑠𝑗 への遷移確率
25
確率ベクトルの変化
𝐩0 = 1,0,0 とした場合
𝐩0 = 0,0.5,0.5 とした場合
それぞれの確率ベクトルの変化を観察する
𝑠1
a / 0.4
a / 0.8
𝑠2
b / 0.5
b / 0.6
a / 0.5
𝑠3
b / 0.2
𝑃𝑆𝑡 𝑠1
𝑃𝑆𝑡 (𝑠2 )
𝑃𝑆𝑡 (𝑠3 )
0
1
2
3
4
5
6
7
1.00 0.00 0.30 0.04 0.15 0.08 0.11 0.09
0.00 0.40 0.62 0.66 0.69 0.69 0.70 0.70
0.00 0.60 0.08 0.30 0.16 0.23 0.19 0.21
𝑃𝑆𝑡 𝑠1
𝑃𝑆𝑡 (𝑠2 )
𝑃𝑆𝑡 (𝑠3 )
0
1
2
3
4
5
6
7
0.00 0.25 0.05 0.14 0.08 0.11 0.09 0.10
0.50 0.65 0.67 0.70 0.69 0.70 0.70 0.70
0.50 0.10 0.28 0.16 0.22 0.19 0.21 0.20
26
正規マルコフ情報源の定常分布
確率ベクトルが特定の値に収束し,ほとんど変化しなくなった
遷移関係 𝑝𝑡+1 = 𝑝𝑡 𝑇 の不動点を定常分布と呼ぶ
正規マルコフ情報源には定常分布が必ず存在し,一意に定まる
定常分布 𝐩 = 𝑝1 , … , 𝑝𝜎 は,以下の連立方程式の解
𝐩 = 𝐩𝑇
𝑝1 + ⋯ + 𝑝𝜎 = 1
前ページの例では
0 0.4 0.6
𝑝1 , 𝑝2 , 𝑝3 = (𝑝1 , 𝑝2 , 𝑝3 ) 0 0.8 0.2
0.5 0.5 0
𝑝1 + 𝑝2 + 𝑝3 = 1
𝑝1 , 𝑝2 , 𝑝3
= (0.1,0.7,0.2)
27
定常分布の計算例
0/0.9
遷移確率行列は
1/0.1
𝑠1
0.9 0.1
𝑇=
0.4 0.6
𝑠2
0/0.4
1/0.6
解くべき連立方程式は
0.9 0.1
0.4 0.6
𝑝1 + 𝑝2 = 1
𝑝1 , 𝑝2 = (𝑝1 , 𝑝2 )
解は (𝑝1 , 𝑝2 ) = (0.8,0.2)
...これが定常分布
28
定常分布の性質
𝐩を正規マルコフ情報源の定常分布とするとき...
任意の 𝐩0 に対し, lim 𝐩𝑡 = 𝐩
𝑡→∞
初期状態の違いは,十分長い時間の後には無視できる
𝐩0 = 𝐩 とすると,正規マルコフ情報源は定常情報源となる
確率的には,いつでも同じ振る舞いをする
𝑠1
a / 0.4
正規マルコフ情報源 + 「𝐩0 = 𝐩」という制約
⇒ 定常マルコフ情報源
a / 0.8
𝑠2
b / 0.5
b / 0.6
a / 0.5
𝑠3
b / 0.2
29
定常マルコフ情報源の性質
𝐩0 = 𝐩を定常分布とする定常マルコフ情報源を考える
0/0.9 1/0.1
𝐩0 = 𝐩1 = ⋯ = (0.8,0.2)
𝑠1
𝑠2
常に 𝑃𝑆𝑡 𝑠1 = 0.8, 𝑃𝑆𝑡 𝑠2 = 0.2
0/0.4
1/0.6
0が出力されるのは,
𝑆𝑡 = 𝑠1 で,確率0.9の遷移が発生,または
𝑆𝑡 = 𝑠2 で,確率0.4の遷移が発生
𝑃𝑋 0 = 𝑃𝑆𝑡 𝑠1 × 0.9 + 𝑃𝑆𝑡 𝑠2 × 0.4 = 0.8
同様に
𝑃𝑋 1 = 𝑃𝑆𝑡 𝑠1 × 0.1 + 𝑃𝑆𝑡 𝑠2 × 0.6 = 0.2
30
この先の議論について
以下では...
記憶のない定常情報源
記憶のある定常情報源
の違いについて,情報理論的に議論する
情報源が出力する複数の記号に着目する必要アリ
⇒ 情報源の拡大
31
情報源の拡大
𝑆 𝑛 : 定常情報源 𝑆 の 𝑛次拡大情報源;
𝑛個の出力記号を,まとめて1個のものと解釈する
出力記号を表す確率変数 𝑋 𝑛 = 𝑋1 … 𝑋𝑛
𝐷 𝑋 𝑛 = 𝑎1 , … , 𝑎𝑛 𝑎𝑖 ∈ 𝐷(𝑋)}
𝑃𝑋 𝑛 𝑎1, … , 𝑎𝑛 = 𝑃𝑋1 𝑎1 × 𝑃𝑋2 |𝑋1 𝑎2 𝑎1 ×
⋯ × 𝑃𝑋𝑛 |𝑋1 …𝑋𝑛−1 (𝑎𝑛 |𝑎1, … , 𝑎𝑛−1 )
01000101
𝑋
𝐷(𝑋) = {0, 1}
01 00 01 01 𝑋 2
𝐷(𝑋 2 ) = {00, 01, 10, 11}
32
拡大情報源のエントロピー
コイン投げの2次拡大情報源
(拡大後の)記号
確率
表表
0.25
表裏
0.25
裏表
0.25
裏裏
0.25
この2次拡大情報源の1次エントロピーは:
𝐻1 𝑋 2 = 4 × −0.25log 2 0.25 = 2 bits
記号を 2個 1組で予測するときの難しさ
1個ずつ予測するときの 2倍難しい?
もう少し詳しく議論するため,以下を定義
𝐻1 (𝑋 𝑛 )/𝑛 = 𝑋の n次エントロピー 𝐻𝑛 (𝑋)
lim 𝐻1 (𝑋 𝑛 )/𝑛
𝑛→∞
= 𝑋の (極限)エントロピー 𝐻(𝑋)
33
記憶のない場合
𝑃𝑋 (0) = 0.8, 𝑃𝑋 (1) = 0.2 である定常無記憶情報源
𝑋
0
1
0.8
0.2
𝑋 2 00
01
10
11
0.64
0.16
0.16
0.04
𝐻1(𝑋) = – 0.8log0.8 – 0.2log0.2 = 0.72
𝐻1 𝑋 2 = – 0.64log0.64– 0.16log0.16
– 0.16log0.16– 0.04log0.04 = 1.44
𝐻2(𝑋) = 𝐻1 𝑋 2 /2 = 1.44/2 = 0.72
任意の 𝑛 に対して 𝐻1 𝑋 𝑛 = 0.72𝑛 となる?
34
記憶のない場合:証明
定理: 定常無記憶情報源なら,𝐻1 𝑋 𝑛 = 𝑛𝐻1 (𝑋).
n = 2 の場合の概略
無記憶性:
𝐻1 𝑆 2 = −
=−
=−
=−
=−
𝑎0 ∈𝐷(𝑋)
𝑎0
𝑎1
𝑎0
𝑎0
𝑎0
𝑎1 ∈𝐷(𝑋)
𝑃 𝑎0 , 𝑎1 log 2 𝑃 𝑎0 , 𝑎1
𝑃(𝑎0, 𝑎1) = 𝑃(𝑎0)𝑃(𝑎1)
𝑃 𝑎0 𝑃 𝑎1 log 2 𝑃 𝑎0 𝑃 𝑎1
𝑎1
𝑃 𝑎0 𝑃 𝑎1 log 2 𝑃 𝑎0 −
𝑃 𝑎0 log 2 𝑃 𝑎0
𝑃 𝑎0 log 2 𝑃 𝑎0 −
𝑎1
𝑃 𝑎1 −
𝑎1
𝑎0
𝑎1
𝑎1
𝑃 𝑎0 𝑃 𝑎1 log 2 𝑃 𝑎1
𝑃 𝑎1 log 2 𝑃 1
𝑃 𝑎1 log 2 𝑃 1
𝑎0
𝑃 𝑎0
𝑃(𝑎0)の総和は 1
= 𝐻1 𝑋 + 𝐻1 𝑋 = 2𝐻1 (𝑋)
系: 定常無記憶情報源なら,𝐻 𝑋 = 𝐻1 (𝑋)
35
記憶のある情報源(マルコフ情報源)の場合
0/0.9
1/0.1
𝑠1
𝑠2
0/0.4
0
1
00
01
10
11
定常分布: 𝐩 = (0.8,0.2)
1/0.6
0.8·0.9 + 0.2·0.4 = 0.80
0.8·0.1 + 0.2·0.6 = 0.20
𝐻1 𝑋 = 0.722
0.8·0.9·0.9 + 0.2·0.4·0.9 = 0.72
2 = 1.2914
𝐻
𝑋
1
0.8·0.9·0.1 + 0.2·0.4·0.1 = 0.08
2
𝐻
𝑋
1
0.8·0.1·0.4 + 0.2·0.6·0.4 = 0.08
𝐻2 𝑋 =
= 0.6457
2
0.8·0.1·0.6 + 0.2·0.6·0.6 = 0.12
2個同時に予測する難しさ
< 1個ずつ予測する難しさ × 2
36
マルコフ情報源のエントロピー
マルコフ情報源では H1(X) > H2(X) > ....
Hn(X)
定理:(証明略)
n次エントロピーは極限エントロピーに
H(X)
漸近・収束する
n
どのようにして 𝐻(𝑋) を計算するか:
1. 定常分布を計算
2. 状態をバラバラにし,それぞれを無記憶情報源と考える
3. 各状態のエントロピーを計算
4. 3 の結果の重み付き平均を計算
37
計算例
1/0.1
0/0.9
𝑠1
定常分布:
𝐩 = 0.8, 0.2
𝑠2
0/0.4
1/0.6
ℋ 𝑝 = −𝑝log 2 𝑝 − 1 − 𝑝 log 2 (1 − 𝑝)
0/0.9
0/0.4
𝑠1
状態𝑠1 , 𝐻 𝑋 = ℋ 0.9 = 0.469
状態𝑠2 , 𝐻 𝑋 = ℋ 0.4 = 0.971
𝑠2
1/0.1
1/0.6
重み付き平均= 0.8×0.469 + 0.2×0.971= 0.5694 bit = 𝐻(𝑋)
38
マルコフ情報源の拡大について:まとめ
マルコフ情報源の場合...
n次エントロピーは,n に対して単調現象する
n次エントロピーは,極限エントロピーに収束する
(マルコフ情報源以外の,任意の有記憶情報源でも成り立つ)
マルコフ情報源では,さらに,
極限エントロピーの計算は,比較的容易
Hn(X)
H(X)
n
記憶のある情報源では,
n 記号まとめて予測することの難しさは,
1 記号ずつ予測する難しさの n 倍よりも小さい
39
本日のまとめ
相互情報量について
マルコフ情報源
A
練習問題:右図のマルコフ情報源に対し,
0/0.4 0/0.5
定常確率分布を求めよ
010 が出力される確率を求めよ
1/0.2
B
極限エントロピー 𝐻(𝑋)を求めよ
0/0.8
1/0.5
1/0.6
C
レポート出題予告 / report assignment
4/28までに http://isw3.naist.jp/~kaji/lecture/に掲載予定
will be uploaded to the above URL by April 28
40