12 発展的話題その3:情報理論入門 - 松本充弘の個人的ページ

機シ:統計熱力学 2016 (松本)
:p. 126
12
発展的話題その 3:情報理論入門
統計力学の大きな成果の1つは,第 3 章で学んだように,熱力学においては経験
的 empirical に定義されるエントロピー
S熱力学 ≡
d− Q
T
(12–344)
を,微視的状態の数(多重度)g(E) と結びつける表式(Boltzmann の関係式)を得
たことである:
繰り返しコメントするが,厳密に
は g(E) は多重度密度であり,小
さなエネルギー幅 dE に対して
W (E) = g(E)dE である.多重
度 W (E) を使って
S(E) = kB log W (E)
S統計力学 (E) = kB log g(E)
(12–345)
実は,エントロピーにはもう1つ,情報量の尺度という重要な側面があり,統計力学
の大きな応用分野の1つになっている. この章では,情報(あるいは確率)という
と書いてある教科書も多い.W (E)
と g(E) は定数倍 (dE) 異なるの
で,その対数であるエントロピー
には,定数 kB log dE だけのずれ
が生じるが,実用上はどちらで考
えても差し支えない.
観点から眺めたエントロピーについて述べる.
12.1
確率とエントロピー
まずは,簡単な例として,
「サイコロのエントロピー」について考察しよう.6つ
の目が等しい確率で出現するということを,
「多重度が6」と解釈すると,そのエン
トロピーは
Sサイコロ = kB log 6
(12–346)
と定義できるだろう.
さて,このサイコロを振った結果,
「偶数の目が出た」とわかったとしよう.これは,
「目は 2, 4, 6 のいずれか」ということを意味するから,このときのエントロピーは
0
Sサイコロ
= kB log 3
(12–347)
に変化する.つまり,
「偶数の目が出たという情報」を入手したことで
∆Sサイコロ
=
0
Sサイコロ
− Sサイコロ
=
kB log
=
−kB log 2 < 0
3
6
(12–348)
だけ,エントロピーが減少したことになる.このように,系についての情報を得るこ
とで,その系のエントロピーは減少する.あるいは,「情報」はマイナスのエントロ
ピーを持っている,と言ってもよい.
この章の内容は,標準的/初等
的な統計力学の教科書(たとえば
Kittel)ではほとんど触れられて
いないが,コンピュータや通信な
どの分野をはじめとして 情報学に
おけるエントロピーの考え方 はま
すます重要になっているので,簡
単に取り上げることにした.詳し
く知りたい人は,情報理論などの
適当な教科書を参照して欲しい.
最近 (2012 年刊),ブルーバック
スから次の本が出版された.副読
本としては手頃だろう.
機シ:統計熱力学 2016 (松本)
:p. 127
別の例として,20の扉 という遊びを挙げよう.上手に質問すれば,220 ' 106 も
の候補の中から1つを当てることができる.これをエントロピーの視点で考えてみ
よう.ゲーム開始前のエントロピーは
S(0) = kB log 220 = 20kB log 2
(12–349)
である.1回質問して yes,no を答えてもらうと,可能性は半分になるから
S(1) = kB log 219 = 19kB log 2
(12–350)
「20 の質問に yes か no で答えて
もらうことで,相手が考えている
ものを当てる」というゲームであ
る.
(私が小学生の頃はよくやった
遊びですが,最近はどうでしょう
か?)例えば,
生物ですか? yes
動物ですか? yes
陸上にいますか? no
脊椎動物ですか? yes
..
.
飼育できますか? yes
赤色のものはいますか? no
↓
それは メダカ ですね!
以下,同様に質問を繰り返すと
S(18)
=
2kB log 2
(12–351)
S(19)
=
kB log 2
(12–352)
S(20)
=
0
(12–353)
と減少していき,確定したときにはエントロピーはゼロ(つまり多重度は1)とな
る.つまり,yes, no で答えられる質問で得られる情報により,エントロピーは
kB log 2 だけ減少する と考えられる.
もちろん,この議論は「理想的に
うまく質問をした場合」である.
ゲームの初心者は,
「それは時計で
すか?」「
,それは鉛筆ですか?」,…
と具体的なものを挙げていくが,
これでは 20 個のものしか選択で
きない.
こうした考え方を一般化しよう.N 個の可能性がある場合に,
「そのうちの M 個の
いずれかである」という情報を入手するとエントロピーは kB log
M
N
(< 0) だけ変化
(減少)すると考えられる.情報理論 informatics の分野では,
この情報は −kB
(> 0) の 情報量(information) をもつ
log M
N
という言い方をする.あるいは,M/N がその事象の出現確率を表すので,
「確率 p の事象が起きた」という情報は −kB log p の情報量を持つ
と言い換えることもできる.
(例)よく,
「犬が人を噛んでもニュースにはならないが,人が犬を噛むとニュースに
なる」と言われる.これを情報理論的に解釈すると,
人が犬を噛む確率 犬が人を噛む確率
だから
「人が犬を噛んだ」というニュースのもつ情報量
「犬が人を噛んだ」というニュースのもつ情報量
ということになる.
もちろん,確率は必ず p ≤ 1 であ
るから,こうして定義された情報
量は常に非負の値をとる.
機シ:統計熱力学 2016 (松本)
:p. 128
情報学の分野では,対数の底を e ではなく 2 にとることが多い.これは,コン
ピュータをはじめとして情報の最小単位を on,off (あるいは yes,no) の2状態で扱
うのが便利だからである.したがって,上述の情報量は
対数の公式
log p
kB
−kB loge p = −kB 2 = −
log2 p
log2 e
log2 e
loga x =
(12–354)
logb x
logb a
(a, b, x > 0) を思い出そう.
kB
を1として扱うのが普通である.熱力学との対応で言
log2 e
えば,温度の単位(目盛り付け)を変更することに相当するので,係数を1にするこ
さらに,この定係数
とは不自然なことではない.これ以降,情報理論を紹介するこの章においては,特
に断りのない限りはこの単位系を使うことにして,次のように表現する:
「確率 p の事象が起きた」という情報の情報量は − log2 p である.
この情報量の単位を ビット bit という.
(参考) 情報量の単位の呼称として長らく,ビット が用いられてきたが,1997 年の
JIS 規格 (JIS X0016-1997 情報処理用語)において,次の単位呼称が制定された.こ
れは ISO (国際標準化機構 International Organization for Standardization) の規格
制定を受けたものである.ただし,シャノンという呼称はまだあまり普及していない
ようである.
底
2
e
10
単位呼称
シャノン
ナット
ハートレー
記号
Sh
nat
Hart
注
従来の「ビット」.Claude Shannon (1916–2001) にちなむ.
自然対数 (natural logarithm).
常用対数.Ralph Hartley (1888–1970) にちなむ.
再びサイコロの例に戻り,今度は「不正確なサイコロ」,すなわち各々の目が出る
確率が必ずしも
1
6
ではない一般的な場合を考える:
{
としよう.もちろん
∑
サイコロの目 :
1
確率 : p1
2
p2
··· 6
. . . p6
}
(12–355)
pi = 1 である.このとき,
「サイコロを1回振る」ことによっ
i
てもたらされる情報量の平均値(期待値)は
S ≡ p1 × (− log2 p1 ) + p2 × (− log2 p2 ) + · · ·
(12–356)
となる.これを,
「サイコロを1回振ることによる情報エントロピーは S である」と
言うことにする.
計算機数学などで学んだように
「ビット (binary digit に由来す
ると言われている)」とは2進数
の各々の桁を表す単位でもある.
今,on,off が等確率 21 で起きる
とき,その情報量は − log2 12 = 1
ビットであるから,両者は本質的
に同じであると考えてよい.
機シ:統計熱力学 2016 (松本)
:p. 129
確率論では,値が確率的にしか定
まらない変数(例:サイコロの目)
を確率変数 random variable と
いう.それぞれの値(例:サイコロ
の目の 1, 2, 3, . . .)は事象 event
という.
確率論の用語 を使って整理すると,一般に,
確率が {pi } で与えられる確率変数の (情報) エントロピーは
S=−
∑
pi log2 pi
(12–357)
i
と定義される.これを,シャノンのエントロピーとよぶ.
次節では,情報エントロピーの性質について概観する.
Claude Elwood Shannon (19162001) 情報理論の創始者.1948
年にベル研究所の論文誌に発表
した “A Mathematical Theory
of Communi-cation” が「情報理
論」の誕生とされ,Wiener, von
Neuman, Turing らと並ぶコン
ピュータ界の巨人である.
演習
(1) 正しく作られたサイコロを1回振るときのエントロピーを求めよ.
(2) 製造ミスで,6の目がなく1の目が2つあるサイコロ ができてしまった.こ
のサイコロを1回振るときのエントロピーを求め,正しいサイコロの場合
と比較せよ.
画像は Wikipedia 英語版 より.
(3) 正しく作られたサイコロを2回振り,その目の合計を考える.このときの
事象は {2, 3, 4, . . . 12} である.そのエントロピーを計算し,1回振るとき
のエントロピーの2倍であることを確かめよ.
(参考)Shannon の記念すべき論文の第 1 ページ.情報理論誕生
の瞬間である.全論文は,ウェブ上で入手できる.
R eprinted with corrections from The Bell System Technical Journal,
Vol. 27, pp. 379–423, 623–656, July, October, 1948.
http://cm.bell-labs.com/cm/ms/what/shannonday/shannon1948.pdf
A Mathematical T heory of Communication
B y C. E . SHA NNON
I N T R OD U C T I ON
HE recent development of various methods of modulation such as PCM and PPM which exchange
bandwidth for signal-to-noise ratio has intensified the interest in a general theory of communication. A
basis for such a theory is contained in the important papers of Nyquist1 and Hartley 2 on this subject. In the
present paper we will extend the theory to include a number of new factors, in particular the effect of noise
in the channel, and the savings possible due to the statistical structure of the original message and due to the
nature of the final destination of the information.
T he fundamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point. Frequently the messages have meaning; that is they refer
to or are correlated according to some system with certain physical or conceptual entities. T hese semantic
aspects of communication are irrelevant to the engineering problem. T he significant aspect is that the actual
message is one selected from a set of possible messages. T he system must be designed to operate for each
possible selection, not just the one which will actually be chosen since this is unknown at the time of design.
If the number of messages in the set is finite then this number or any monotonic function of this number
can be regarded as a measure of the information produced when one message is chosen from the set, all
choices being equally likely. A s was pointed out by Hartley the most natural choice is the logarithmic
function. A lthough this definition must be generalized considerably when we consider the influence of the
statistics of the message and when we have a continuous range of messages, we will in all cases use an
essentially logarithmic measure.
T he logarithmic measure is more convenient for various reasons:
1. It is practically more useful. Parameters of engineering importance such as time, bandwidth, number
of relays, etc., tend to vary linearly with the logarithm of the number of possibilities. For example,
adding one relay to a group doubles the number of possible states of the relays. It adds 1 to the base 2
logarithm of this number. Doubling the time roughly squares the number of possible messages, or
doubles the logarithm, etc.
2. It is nearer to our intuitive feeling as to the proper measure. T his is closely related to (1) since we intuitively measures entities by linear comparison with common standards. One feels, for example, that
two punched cards should have twice the capacity of one for information storage, and two identical
channels twice the capacity of one for transmitting information.
3. It is mathematically more suitable. Many of the limiting operations are simple in terms of the logarithm but would require clumsy restatement in terms of the number of possibilities.
T he choice of a logarithmic base corresponds to the choice of a unit for measuring information. If the
base 2 is used the resulting units may be called binary digits, or more briefly bits, a word suggested by
J. W. Tukey. A device with two stable positions, such as a relay or a flip-flop circuit, can store one bit of
information. N such devices can store N bits, since the total number of possible states is 2N and log2 2N N.
If the base 10 is used the units may be called decimal digits. Since
log2 M
log10 M log10 2
3 32log10 M
1 Nyquist, H., “Certain Factors A ffecting Telegraph Speed,” Bell System Technical Journal, A pril 1924, p. 324; “Certain Topics in
Telegraph Transmission T heory,” A.I.E .E . Trans., v. 47, A pril 1928, p. 617.
2 Hartley, R . V. L ., “Transmission of Information,” Bell System Technical Journal, July 1928, p. 535.
1
機シ:統計熱力学 2016 (松本)
:p. 130
情報エントロピーの性質
12.2
12.2.1
確率統計学の復習
まず,次のことを確認しておこう:
(0) 離散的 discrete な値をとる確率変数 stochastic variable X の確率 pX (x) は次
の性質を持たなければならない:
すべての事象 x について 0 ≤ pX (x) ≤ 1
規格化条件 ∑
pX (x) = 1
(12–358)
(12–359)
x
次に,2つの確率変数 X と Y を考える.各々の確率が,pX (x),pY (y) と与えられ
ているとする.
(1) 「X = x であり,かつ Y = y である確率」を 結合確率 joint probability とい
う.ここでは,p(x, y) と表すことにする.その定義から
∑
p(x, y) = pX (x)
(12–360)
y
が成り立つ.これは,
「Y の値がどうであれ」X = x となる確率,ということな
ので,当然である.同様に
∑
p(x, y) = pY (y)
(12–361)
x
(2) 任意の x, y について
p(x, y) = pX (x)pY (y)
(12–362)
が成り立つとき,X と Y は独立 independent であるという.
(3) 「Y = y の条件下で,X = x である確率」を 条件付き確率 conditional
probability といい,p(x|y) と表すことにする.同様に,
「X = x の条件下で,
Y = y である確率」を p(y|x) で表す.定義により,
∑
x
が成り立つ.
p(x|y) =
∑
y
p(y|x) = 1
(12–363)
確率変数が連続的 continuous な
値をとる場合は,もちろん,確率
密度 probability
density を定義
∫
∑
し,和
の代わりに積分
dx
x
を考えることになる.
機シ:統計熱力学 2016 (松本)
:p. 131
(4) 一般には
p(x|y) 6= p(y|x)
(12–364)
(5) 条件付き確率の定義から,次のベイズの定理 Bayes’ rule が成り立つ.
p(x, y) = p(x|y)pY (y) = p(y|x)pX (x)
(12–365)
Thomas Bayes (1702–1761) イ
ギリスの牧師・数学者.ベイズの
定理の特殊な場合についての証明
が死後発表されたことで知られる.
この定理を用いると,結合確率だけから条件付き確率を求めることが可能と
なる:
p(y|x)
=
p(x, y)
p(x, y)
=∑
pX (x)
p(x, y)
=
p(x, y)
p(x, y)
=∑
pY (y)
p(x, y)
(12–366)
y
p(x|y)
(12–367)
x
(6) もし X と Y が独立ならば,
「X = x である」ことは Y に影響を与えないから,
p(y|x) =
pY (y)
(12–368)
p(x|y) =
pX (x)
(12–369)
これは ベイズの定理,式 (12–365),
独立 の定義,式 (12–362),およ
び規格化条件,式 (12–359) から
すぐに証明できますね.
である.
演習
ベイズの定理の応用:事後推定
式 (12–365) を次のように変形すると,事象 y が起きた時の x の条件付き確率を,
事象 x が起きた時の y の条件付き確率から求めることができる:
p(x|y) =
p(x, y)
p(y|x)pX (x)
= ∑
pY (y)
p(y|x)pX (x)
最近,興味深い本が出版された:
マグレイン著,
「異端の統計学 ベ
イズ」(草思社, 2013).
(12–370)
x
これを利用すると,つぎのような問題を扱うことができる.
Wikipedia:ベイズ推定 の例より
クッキーのいっぱい詰まったボウルが2つある.ボウルAには 10 個のチョコクッキーと 30
個のプレーンクッキーが,ボウルBにはそれぞれが 20 個ずつはいっている.どちらか 1 つ
のボウルをランダムに選び,さらにランダムにクッキーを取り出したところ,クッキーはプ
レーンだった.これがボウルAから取り出されたという確率を求めよう.
事象 X はボウルの選択,事象 Y はクッキーの選択ということになる.推定に必要な確
率は
{
pX (ボウルA) = 1/2
pX (ボウルB) = 1/2
{
p(プレーン | ボウルA)
p(プレーン | ボウルB)
=
=
3/4
1/2
以上より,求める確率は
p(ボウルA | プレーン)
=
=
p(プレーン | ボウルA)pX (ボウルA)
p(プレーン | ボウルA)pX (ボウルA) + p(プレーン | ボウルB)pX (ボウルB)
3/4 × 1/2
3
=
3/4 × 1/2 + 1/2 × 1/2
5
ボウルAのほうがプレーンクッキーがたくさん入っているから,それがボウルAから取り出
された確率が大きいというのは,直感と合っている.
(Amazon サイトでの紹介文から)
現在、IT やリスクマネジメント、経済
学、意志決定理論の各分野で非常に重
要な役割を果たしているベイズ統計。
しかし、その 250 年あまりの歴史の
ほとんどにおいて、統計学界では異端
視され、冷遇されてきた。本書は、虐
げられてきたベイズ統計が突然注目を
集めるようになるまでの、数奇な遍歴
を初めて物語る一冊です。物語の中で
は、いまだに機密扱いを受けている戦
時下・冷戦下でのベイズ統計のスリリ
ングな活躍、およそ科学的とは言い難
いほどにどろどろとしたベイズ派と主
流派との闘いなどが繰り広げられます。
機シ:統計熱力学 2016 (松本)
:p. 132
12.2.2
情報エントロピーの最小値と最大値
エントロピーの定義
S(X) = −
∑
pX (x) log2 pX (x)
(12–371)
x
において,条件 0 ≤ pX (x) ≤ 1 より log2 pX (x) ≤ 0 が成り立つので
0 ≤ S(X)
(12–372)
である. 等号が成り立つ(すなわち エントロピーの下限)のは,ある x において
lim x log x = 0 を思いだそう.
x→0
pX (x) = 1 でそれ以外は pX (x) = 0 の場合のみであることは明らかであろう.これ
は,
「確定している事象についてのエントロピーはゼロ」ということで,直感と合う.
では,エントロピーの上限 はあるだろうか? これを考えるためには,上に凸 な
関数についての次の定理が有用である.
補題:イエンゼン Jensen の不等式
f (x) を 0 ≤ x < ∞ で定義された上に凸な関数とする.
N 個の点
∑
pi = 1 を満たす実数 p1 , p2 , . . . , pN に対
x1 , x2 , . . . , xN と 0 ≤ pi ≤ 1,
関数 f (x) が上に凸 とは,任意の
r (0 ≤ r ≤ 1) に対して,定義域
内の2点 a と b を 1 − r : r に内
分する点 x = r · a + (1 − r) · b に
おいて,
f (x) ≥ r · f (a) + (1 − r) · f (b)
が成り立つことである.
f(x)
f(b)
i
して
N
∑
(
pi f (xi ) ≤ f
i=1
N
∑
)
f(a)
pi xi
(12–373)
i=1
1-r : r
が成り立つ.
(証明) N についての数学的帰納法 mathematical induction で示す.
• N = 2 のときは,凸関数の定義により成り立つ.
• N = K のときに成り立ったと仮定する.すなわち
p01 f (x1 )
+
p02 f (x2 )
+ ··· +
p0K f (xK )
(
≤f
K
∑
)
p0i xi
i
• N = K + 1 の場合を考える.上の
p0i =
p0i
を
pi
i = 1, 2, . . . , K
1 − pK+1
となるように選ぶと,明らかに
K
∑
p0i = 1 であり,
i
∑
K+1
pi f (xi )
=
K
∑
pi f (xi ) + pK+1 f (xK+1 )
i
i
=
(1 − pK+1 ) ·
K
∑
p0i f (xi ) + pK+1 f (xK+1 )
i
(
≤
(1 − pK+1 ) · f
=
f
f
)
p0i xi
+ pK+1 f (xK+1 )
i
(
≤
K
∑
(1 − pK+1 )
(K+1
∑
)
K
∑
)
p0i xi
+ pK+1 xK+1
i
pi x i
i
となるから,N = K + 1 の場合も成り立つ.
(証明終わり)
Johan Ludwig William Valdemar
Jensen (1859–1925) デンマーク
の数学者,技術者.
機シ:統計熱力学 2016 (松本)
:p. 133
さて,対数関数は,上に凸な関数 である.そこで,f (x) として log2 x を選び,ま
た xi =
1
pi
とすると,Jensen の不等式から
S(X)
N
∑
−
=
pi log2 pi
i
N
∑
=
pi log2
i
≤ log2
N
∑
pi
pi
i
=
1
pi
log2 N
= − log2
1
N
(12–374)
すなわち,エントロピーは確率変数が一様分布である場合に最大となることが示さ
れた.これにより,サイコロが正しく作られている(どの目も同じ確率
1
6
で出る)
場合が最もエントロピーが大きい(p. 129 の演習問題を参照)ことが証明されたこ
とになる.
一様分布(=どの事象が起きる確率も等しい)というのは,事象について事前に
全く手がかりがないということを意味するから,そのエントロピーが最大となるの
は物理的に考えれば当然とも言える.
12.2.3
条件付きエントロピーと結合エントロピー
前節の定義に従って,確率変数 X, Y の(情報)エントロピーはそれぞれ
S(X)
=
−
∑
pX (x) log2 pX (x)
(12–375)
pY (y) log2 pY (y)
(12–376)
x
S(Y ) =
−
∑
y
である.ここで,次のエントロピーを考えよう:
S(X|Y = y) ≡ −
∑
p(x|y) log2 p(x|y)
(12–377)
x
これは,
「Y = y であることを知ってもなお残っている曖昧さ(情報量)」を表してい
る.Y はいろいろな値をとり得るので,その期待値を考えることができる:
∑
pY (y)S(X|Y = y) = −
∑
y
y
pY (y)
∑
p(x|y) log2 p(x|y)
(12–378)
x
これを条件付きエントロピー conditional entropy といい,S(X|Y ) で表すことにす
る.ベイズの定理から
S(X|Y ) = −
∑
pY (y)p(x|y) log2 p(x|y) = −
∑
p(x, y) log2 p(x|y)
(12–379)
p(x, y) log2 p(y|x)
(12–380)
x,y
x,y
である.同様にして,
S(Y |X) = −
∑
x,y
も定義できる.
pX (x)p(y|x) log2 p(y|x) = −
∑
x,y
グラフを描いてみれば明らかであ
る.あるいは 2 階微分が常に正で
あることを示しても良い.
機シ:統計熱力学 2016 (松本)
:p. 134
一方,結合エントロピー joint entropy は
S(X, Y ) = −
∑
p(x, y) log2 p(x, y)
(12–381)
x,y
と定義するのが自然である.再びベイズの定理を使うと
S(X, Y )
=
−
∑
p(x, y) log2 p(x, y)
x,y
= −
∑
pX (x)p(y|x) log2 [pX (x)p(y|x)]
x,y
= −
∑
pX (x)p(y|x) log2 pX (x) −
x,y
= −
∑
pX (x) log2 pX (x)
∑
x
= −
∑
y
pX (x) log2 pX (x) −
x
∑
x,y
p(y|x) −
∑
pX (x)p(y|x) log2 p(y|x)
∑
pX (x)p(y|x) log2 p(y|x)
x,y
pX (x)p(y|x) log2 p(y|x)
x,y
= S(X) + S(Y |X)
(12–382)
が得られる.これは,
「X と Y についての結合エントロピー」は,
「X のエントロ
ピー」と「X がわかったときの Y の条件付きエントロピー」の和になることを示し
ており,エントロピーの連鎖則 chain rule of entropy と言われる.全く同様にして,
S(X, Y ) = S(Y ) + S(X|Y )
(12–383)
も得られる.
演習
X と Y が独立である場合を考えよう.次のことを示せ.
(1) p(x|y) = p(x), p(y|x) = p(y)
(2) S(X|Y ) = S(X), S(Y |X) = S(Y )
(3) S(X, Y ) = S(X) + S(Y )
これにより,サイコロを2回振るときのエントロピーは1回振るときのエントロ
ピーの2倍である(p. 129 の演習問題を参照)ことが,一般的な形で証明された
ことになる.
機シ:統計熱力学 2016 (松本)
:p. 135
12.3
情報エントロピーの応用例1:言語のエントロピー
一般に,情報は言語(日本語や英語のような自然言語,および,モールス信号やプ
ログラミング言語のような人工言語の両方を含む)によって表現/伝達される.そ
こで,言語のもつエントロピーを考えてみよう.
ここでは簡単のため,n 種類の記号(文字)によって表現される言語 を情報理論
の立場から扱う.各々の記号の出現頻度は一般には同じではないので,i 番目の記号
の出現確率を pi とすると,前節の結果から,この言語の1文字あたりのエントロ
ピーは
s1 = −
∑
pi log2 pi
(12–384)
i
と定義するのが自然である.
さて,一般には1つの文字だけで情報が表されることはない.そこで M 個の文字
からなる情報を考えよう.M 個が互いに独立であれば,この情報のエントロピーは
M · s1 (1文字のエントロピーの M 倍)となるはずであるが,英語のような自然言
語においては前の文字に依存してその出現頻度は大きく異なる.例えば,Q という
文字の後には,ほとんどの場合に U が来ることはよく知られている.あるいは,
TH という文字列の後は E が来ることが非常に多いこともわかっている. このよう
に,出現頻度が先行する文字に依存する場合は,条件付きエントロピーを考えるの
が自然であろう.
えい
寺本 英 (1925–1996) 生物物理学
者.日本における数理生物学の実
質的創始者.京都大学理学部教授.
表 12–6: 英語中の文字の出現頻度.
(Wikipedia より)
出典:寺本 英,
「エネルギーとエントロピー」(化学同人, 1976)p. 205 より引用.この本は大変な名著だと思うので
すが,残念ながら絶版になっているようです.
順位
1
2
3
4
5
6
7
8
9
文字
スペース
E
T
A
O
N
R
I
S
頻度
0.1817
0.1073
0.0856
0.0668
0.0654
0.0581
0.0559
0.0519
0.0499
順位
10
11
12
13
14
15
16
17
18
文字
H
D
L
F
C
M
U
G
Y
頻度
.04305
.03100
.02775
.02395
.02260
.02075
.02010
.01633
.01623
順位
19
20
21
22
23
24
25
26
27
文字
P
W
B
V
K
X
J
Q
Z
頻度
.01623
.01260
.01179
.00752
.00344
.00136
.00108
.00099
.00063
(例) 英語の文字の出現頻度はよく調べられているものの1つであり,表 12–6 はその一例である.これによると,
英語1文字のエントロピーは
∑
pi log2 pi ' 4.03 bit
s1 = −
i
となる.もし,この 27 種類の文字が等確率で出現したとするとそのエントロピーは
s0 = −
∑
1
1
log2
= log2 27 = 4.76 bit
27
27
であるから,当然ながら 自然言語にはかなりの偏り=無駄がある.なるべく記号の出現確率が均等になるように言語
を設計することができれば,無駄なく情報を伝えることができるはずである.一方で,このような無駄があるために
多少のノイズがあっても情報の伝達が可能となるのである.このような問題は,情報の符号化 coding の設計とし
て情報理論の分野で研究が進んでいる.
機シ:統計熱力学 2016 (松本)
:p. 136
1文字目が i であったとき2文字目が j である条件付き確率を p(j|i) とすると,
たとえば2文字の情報について,その2文字目がもつエントロピーは
s2 = −
∑
pi
i
∑
p(j|i) log2 p(j|i)
j
同様にして,s3 ,s4 ,. . . も定義することができる.もし1文字目と2文字目が全く
独立ならば s1 = s2 となるが,表 12–6 のような英語の例では,
s2 = 3.32 bit, s3 = 3.1 bit, . . .
と減少していくことが知られている.
長い文字列についての極限値 s∞ は 1 bit 程度と言われており,実際の英語の文
章は
1−
s∞
∼ 0.75
s1
程度の無駄(冗長度 redundancy)が含まれていることになる. つまり,我々が英語
の文章を書くときには 75% 程度は文法や単語などの規則によって自動的に決まって
しまい,残りの 25% しか我々の自由にはならないということである.
12.4
情報エントロピーの応用例2:通信
何らかの通信手段によって,情報を伝えることを考えよう.送信側の信号を確率変
数 X で,受信側の信号を確率変数 Y で表すことにする.事象 x が完全に一対一で y
に伝われば問題はないが,一般には途中のノイズ等で完全な送信はできない.そこ
で,次の量を考える:
I(X, Y ) ≡ S(X) − S(X|Y )
(12–385)
第 12.2.3 節で述べたように,条件付きエントロピー S(X|Y ) は「Y についての情報
を得てもなお X について残っている情報(曖昧さ)」を意味するから,
0 ≤ I(X, Y ) ≤ S(X)
(12–386)
であり,通信がうまくいくほど I(X, Y ) は大きな値をとる.例えば
• 通信が完璧なら,S(X|Y ) = 0 だから,I(X, Y ) = S(X) である.
• 通信が途絶えていると,S(X|Y ) = S(X) だから,I(X, Y ) = 0 である.
従って,この I(X, Y ) は通信によって伝達された情報量をあらわすと考えられる.
この量を 相互情報量 mutual information あるいは伝送速度 transmission rate とよ
び,通信路の性能をあらわす指標として用いられる.
(問)冗長度がゼロに近い「理想
的言語」があったとするとどんな
ことが起きるか,想像してみよ.
逆に,冗長度が 100% に近い「言
語」ならどうか?
機シ:統計熱力学 2016 (松本)
:p. 137
なお,エントロピーの連鎖則 (12–383) から
S(X|Y ) = S(X, Y ) − S(Y )
(12–387)
なので
I(X, Y ) = S(X) − [S(X, Y ) − S(Y )] = S(X) + S(Y ) − S(X, Y )
(12–388)
となり,I(X, Y ) は X と Y について対称である.このために,
「相互」情報量と名付
けられた.
(例) X と Y がともに on, off の2値をとる確率変数であり,X から Y への通信
に際して,一定の確率 α でランダムにエラーが生じると仮定しよう.X の確率を
{
pX (on)
pX (off)
=
=
r
1−r
とすると,結合確率は
p(X, Y )
X
よって,Y の確率は


 pY (on)
=

 pY (off) =
on
off
∑
x
∑
Y
on
(1 − α)r
α(1 − r)
off
αr
(1 − α)(1 − r)
p(x, Y = on)
=
(1 − 2α)r + α
p(x, Y = off)
=
1 − (1 − 2α)r − α
x
これらから,それぞれのエントロピーを求めると
S(X)
=
−r log2 r − (1 − r) log2 (1 − r)
S(Y )
=
− [(1 − 2α)r + α] log2 [(1 − 2α)r + α]
− [1 − (1 − 2α)r − α] log2 [1 − (1 − 2α)r − α]
また,結合エントロピーは
S(X, Y )
=
−(1 − α)r log2 (1 − α)r − αr log2 αr
−α(1 − r) log2 α(1 − r) − (1 − α)(1 − r) log2 (1 − α)(1 − r)
=
−(1 − α) log2 (1 − α) − α log2 α
1.2
−(1 − r) log2 (1 − r) − r log2 r
よって相互情報量(伝送速度)は
I(X, Y )
=
S(X) + S(Y ) − S(X, Y )
=
(1 − α) log2 (1 − α) + α log2 α
I(X,Y)
1
0.8
0.6
0.4
0.2
−(r + α − 2αr) log2 (r + α − 2αr)
−(1 − r − α − 2αr) log2 (1 − r − α − 2αr)
0
0
図に示すように,伝送速度は α = 0.5 において最小値ゼロをとる.これは,全くラン
ダムにエラーを生じる場合は (当然ながら) 通信ができないことを意味している.
0.25
0.5
Probabiltiy
0.75
r
1
0
0.5
0.25
1
0.75
Error rate
演習
この例で,r = 0.5 の場合の伝送速度を α の関数として求め,図示してみよ.
エラー率の増加によってどの程度通信が妨げられるか,さらにはっきりわかるだ
ろう.
ここで述べた「相互情報量」の考え方は,通信回線の品質を記述するなどのほ
かに,例えば細胞内での DNA 複製時のエラーによる 遺伝情報伝達率の低下 など
を定量的に調べることにも使われている.
DNA 複製時の確率的な変化を調
べて,人類がどのように世界中に
広まっていったか,とかある生物
種がその近縁種といつごろ分化し
たか,などの研究が盛んに行われ
ていることはご存じだろう.
α
機シ:統計熱力学 2016 (松本)
:p. 138
演習
情報のもつ冗長度の重要性について,別の例を見てみよう.受験番号(例えば大
学入試センター試験)の末尾にアルファベットが使われているのをよく見るだろ
う.これは通常,上位の番号からある規則により一意的につけられているので,全
く冗長な文字 である.簡単のため,A1 A0 C という形式の,2桁の数+アルファ
ベットからなる受験番号を考える:
A1
=
{0, 1, 2, . . . , 9}
A0
=
{0, 1, 2, . . . , 9}
C
=
{ A, B, C, D, E, F, G, H, J, K, L}
アルファベットに I を含まないのは,数字の 1 と紛らわしいからである.アルファ
ベットは,次の規則で割り当てることとする:
3A1 + 2A0 mod 11
C
0
A
1
B
2
C
3
D
4
E
5
F
6
G
7
H
8
J
9
K
10
L
ここで,x mod 11 とは x を 11 で割った余りのことである.例えば,47 なら
(3 × 4 + 2 × 7) mod 11 = 26 mod 11 = 4
だから,47E という受験番号が作られる.
(1) この規則によって作られる受験番号のエントロピーと冗長度を求めよ.
(2) ある受験生が,2つの数字のうち片方を間違えて記入してしまった(例え
ば 57E)とする.この冗長性のおかげで,このような誤りを検出できるこ
とを示せ.
(3) 別の受験生は,2つの数字を入れ替えて記入してしまった(例えば 74E).
このような誤りも検出できることを示せ.
(略解)
(1) 数字の出現頻度は均等だと仮定すると
受験番号のエントロピー s = log2 10 + log2 10 = 2 log2 10 ' 6.64 bit
もし,末尾のアルファベットもランダムに選ばれたとするとそのエントロピーは
s0 = log2 10 + log2 10 + log2 11 ' 10.10 bit
従って冗長性は
1−
6.64
' 0.34
10.10
(2) Ai が A0i になった (i = 0 または 1) とすると 3A1 + 2A0 の値は (2 + i) × (A0i − Ai )
だけ変化するが,これは 11 とは互いに素だから 11 で割り切れることはない.つま
り,有効な受験番号とはなり得ないから誤りであるとわかる.
(3) A1 と A0 が入れ替わると 3A1 + 2A0 の値は 3(A0 − A1 ) + 2(A1 − A0 ) = A0 − A1
だけ変化するが,やはり 11 で割り切れることはないので誤りであるとわかる.
12.5
この章のまとめ
(1) 多重度に基づく統計力学のエントロピー(Boltzmann の関係式)の考え方を拡
張することで,確率変数に対するエントロピー(シャノンのエントロピー)を
定義することができる.
(2) 確率変数のエントロピーを使って,情報についての定量的な考察が可能になる.
この方法は,誤りを「検出」する
機能しか持たないが,冗長部分を
さらにうまく設計すると,誤りを
自動的に「訂正」するような機能
を持たせることもできる.情報理
論の分野で詳しく研究され,ハー
ドディスクやデジタル通信の信頼
性向上に役立っている.
機シ:統計熱力学 2016 (松本)
:p. 139
定期試験について
すでに公表されているとおり,
統計熱力学(松本)の試験は
7 月 25 日(月)8:45–10:15 112講義室
*授業と同じ曜日・時間帯・場所です.
(1) 関数電卓(exp,log などが計算できるもの)を必ず持参すること.忘れると,数値計算を含む一部の
問題を解くのに苦しむことになります.
(2) 参考書・配布プリント・ノート等は自由に持ち込んで結構です.
(3) 講義中に取り扱った範囲から出題します.例えば
・確率統計学の基礎
・各種の統計集団の特徴
・ボース統計,フェルミ統計,古典極限
・応用例:半導体電子論の基礎,フォトン,フォノン,情報エントロピー
別途配布する「過去問」なども参考にして,復習しておいてください.
(4) 持ち込み自由ですから,公式を丸暗記してもほとんど無意味です.いかに「統計学・統計力学的な考
え方」を自由に扱えるか,がポイントです.また,数値計算で得られた結果が物理的に妥当なものか
どうかについても,
「常識」を働かせてください.出発点の式は正しいのに計算結果が何桁も狂ってい
る,などというのは将来のエンジニアとして困りますから.
本年度の講義資料を,私の web page に置きました.もし,手元にない章があれば,自由にダウンロード
してもらって結構です.公開は期間限定で,9月頃には消去します.
http://www.mitsuhiromatsumoto.mech.kyoto-u.ac.jp/
ご存じのように,すべての授業について,オンライン (KULIQS) で「授業アンケート」
を実施中です.実施期間は
7月4日(月)∼8月4日(木)
です.忘れずに回答してください.
確定版目次
目次
0
はじめに
0.1 統計力学とは何か . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
0.2 統計力学ではどんな問題を扱うか? . . . . . . . . . . . . . . . . . . . . . .
1
統計学の応用
1.1 自然は真空を嫌う(?) . . . . . . . .
1.2 問題設定:理想気体の密度揺らぎ . . .
1.3 二項分布,正規分布,Stirling の公式
1.4 この章のまとめ . . . . . . . . . . . .
2
3
4
5
6
3
3
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
9
11
巨視的状態と微視的状態
2.1 問題設定:自由電子気体 . . . . . . . . . .
2.2 量子力学の復習 . . . . . . . . . . . . . .
2.3 自由電子気体の微視的状態と多重度 . . . .
2.4 もう一つの例:磁場中の孤立スピンの集団
2.5 この章のまとめ . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
13
13
14
16
18
エントロピーと温度
3.1 問題設定:接触している2つの系 . . . . . . .
3.2 観測される巨視的状態 . . . . . . . . . . . . .
3.3 熱平衡の条件:温度とエントロピー . . . . . .
3.4 古典理想気体の例:温度単位を定めるために .
3.5 「エントロピー」についてのコメント . . . .
3.5.1 エントロピー増大則 . . . . . . . . .
3.5.2 エントロピーの示量性 . . . . . . . .
3.5.3 非平衡状態におけるエネルギーの移動
3.6 この章のまとめ . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
20
22
23
25
25
25
26
27
熱浴と接した系
4.1 問題設定 . . . . . . . . . . . . . . . . . .
4.2 Boltzmann 分布 . . . . . . . . . . . . .
4.3 確率の規格化—分配関数 . . . . . . . . .
4.4 (参考) 分配関数のネーミングの由来 . . .
4.5 分配関数の性質 . . . . . . . . . . . . . .
4.6 例:自由電子気体 . . . . . . . . . . . . .
4.7 例:磁場中の孤立スピンの集団 . . . . . .
4.8 この章のまとめ . . . . . . . . . . . . . .
4.9 (付録) 角運動量の量子化についてのまとめ
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
28
29
30
31
32
33
34
35
37
自由エネルギー
5.1 問題設定 . . . . . . . . . . . . . . . . . . . . . .
5.2 熱力学の復習:Legendre 変換と自由エネルギー
5.3 Helmholtz 自由エネルギーと分配関数の関係 . .
5.4 体積 V から圧力 P への変数変換 . . . . . . . . .
5.5 Gibbs 自由エネルギーと T -P 分配関数 . . . . .
5.6 (発展的話題) 一般的な積分変換 . . . . . . . . .
5.7 この章のまとめ . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
39
39
41
43
44
46
47
化学ポテンシャル,さまざまな統計集団
6.1 問題設定 . . . . . . . . . . . . . . . . . . . . . . . .
6.2 熱力学の復習:自由エネルギーの粒子数依存性 . . . .
6.3 粒子溜と接している系の確率分布 . . . . . . . . . . .
6.4 大分配関数と自由エネルギー . . . . . . . . . . . . .
6.5 まとめ:統計集団,確率分布,分配関数,熱力学関数
6.6 大正準集団の例:固体表面への吸着モデル . . . . . .
6.6.1 表面吸着のモデル . . . . . . . . . . . . . . .
6.6.2 (発展) 多層吸着のモデル . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
48
48
48
50
52
53
55
55
57
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6.7
7
8
9
この章のまとめ
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
理想気体その1―フェルミ気体
7.1 多粒子系の量子力学的性質 . . . . . . . . . . . .
7.2 相互作用のない粒子系の波動関数 . . . . . . . . .
7.2.1 ボース粒子の場合 . . . . . . . . . . . . .
7.2.2 フェルミ粒子の場合 . . . . . . . . . . .
7.3 フェルミ粒子系の性質:フェルミ–ディラック分布
7.4 Fermi–Dirac 分布の特徴 . . . . . . . . . . . . .
7.5 フェルミ粒子系の例:自由電子ガス . . . . . . . .
7.6 この章のまとめ . . . . . . . . . . . . . . . . . .
59
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
60
60
64
64
65
66
68
69
72
理想気体その2―ボース気体,古典極限
8.1 ボース–アインシュタイン分布 . . . . . . . . . . . .
8.2 Bose–Einstein 分布の特徴 . . . . . . . . . . . . .
8.3 (発展)ボース粒子系の例:自由粒子系での凝縮現象
8.4 古典極限 . . . . . . . . . . . . . . . . . . . . . . . .
8.4.1 古典極限での理想気体の熱力学量 . . . . . .
8.4.2 分配関数の古典的取り扱い . . . . . . . . . .
8.5 (発展)粒子間に弱い相互作用が存在する場合 . . . .
8.6 この章のまとめ . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
73
75
76
79
79
82
83
86
発展的話題その 1:フォトンとフォノン
9.1 フォトン:光子 . . . . . . . . . . . . . . . . . .
9.1.1 ある角振動数をもつフォトンの平均個数
9.1.2 振動数分布 . . . . . . . . . . . . . . . .
9.1.3 平衡状態における熱ふく射の強度 . . . .
9.2 フォノン:音子 . . . . . . . . . . . . . . . . . .
9.2.1 アインシュタイン モデル . . . . . . . .
9.2.2 デバイ モデル . . . . . . . . . . . . . .
9.3 この章のまとめ . . . . . . . . . . . . . . . . . .
10 発展的話題その 2:半導体電子論入門 (1)
10.1 固体のバンド理論概説 . . . . . . .
10.2 半導体中の電子励起 . . . . . . . .
10.2.1 熱エネルギーによる励起 .
10.2.2 光による励起 . . . . . . .
10.2.3 電場による励起 . . . . . .
10.2.4 不純物の添加 . . . . . . .
10.3 この章のまとめ . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
87
87
87
88
90
96
96
97
100
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
101
103
105
106
108
109
110
112
11 発展的話題その 2:半導体電子論入門 (2)
11.1 p–n 接合 . . . . . . . . . . . . . . . . . . .
11.1.1 p–n 接合の整流作用:ダイオード .
11.1.2 p–n 接合の増幅作用:トランジスタ
11.2 半導体による光電変換 . . . . . . . . . . . .
11.2.1 光 → 電力 . . . . . . . . . . . . . .
11.2.2 電力 → 光 . . . . . . . . . . . . . .
11.3 半導体による熱電変換 . . . . . . . . . . . .
11.3.1 熱 → 電力 . . . . . . . . . . . . . .
11.3.2 電力 → 熱 . . . . . . . . . . . . . .
11.4 この章のまとめ . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
113
113
114
115
119
119
122
124
124
125
125
12 発展的話題その 3:情報理論入門
12.1 確率とエントロピー . . . . . . . . . . . . . . . . .
12.2 情報エントロピーの性質 . . . . . . . . . . . . . . .
12.2.1 確率統計学の復習 . . . . . . . . . . . . . .
12.2.2 情報エントロピーの最小値と最大値 . . . .
12.2.3 条件付きエントロピーと結合エントロピー
12.3 情報エントロピーの応用例1:言語のエントロピー
12.4 情報エントロピーの応用例2:通信 . . . . . . . . .
12.5 この章のまとめ . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
126
126
130
130
132
133
135
136
138
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.