6. ベイズ主義の考え方 ベイズ主義では、母集団がもつ確率モデルを

6. ベイズ主義の考え方
ベイズ主義では、母集団がもつ確率モデルをあらかじめ描くことをしません。しかし、そ
れは真理を追究することをあきらめているからではない。真理とは、経験的にデーターを
積み重ねていった結果として近似的に達成されるものだと考えているからです。
抽象的な議論になりますが、
「3-3. 確率の計算と二項分布モデル」で使った論理演算の演算
子の約束事をもう一度確認します。一部は新しい記号を導入します。
A ⊃ B包含関係で、Bに含まれるすべての要素はAの要素です。
A ∩ Bは積集合で、Aの事象とBの事象が同時に起こります。
A ∪ Bは和集合で、AまたはBの事象が同時に起こります。
(𝐴𝐴 ∪ 𝐵𝐵) ⊃ (𝐴𝐴 ∩ 𝐵𝐵)です。
B|Aは A が起きて、その条件のもとにBが起きることを表します。
(A ∩ B) = (B ∩ A)ですが、(A|B) ≠ (B|A)です。
事象Aが起きる確率はP(A)です。
A が起きたという条件のもとでBが起きる確率はP(B|A)と表せます。
事象Aが起きないことを余事象A′と表します。AとA′は互いに排反事象で
P(A) + P(A’) = 1
です。ところで
P(A ∩ B) + P(A′ ∩ B) + P(A ∩ B ′ ) + P(A′ ∩ B ′ ) = 1
P(A ∩ B) = P(A) ⋅ P(B|A)
P(B ∩ A) = P(B) ⋅ P(A|B)
つまり、上の行の式は、A であることの確率に、Aの中 B である確率を乗ずれば、A かつ
B の確率になり、下の行の式は、B であることの確率に、B の中 A である確率を乗ずれば、
B かつ A の確率になるということです。
ですから
P(A ∩ B) = P(B ∩ A)
P(A) ⋅ P(B|A) = P(B) ⋅ P(A|B)
P(A|B) P(B|A)
=
P(A)
P(B)
式 88
P(A|B) P(A)
=
P(B|A) P(B)
このプロセスを言葉でいえば、A が起きたあとに B が起きる確率は A がおきる確立に、A
が起きた後に B がおこる確率をかけたものである。Bが起きたあとに A が起きる確率は A
がおきる確立に、A が起きた後に B がおこる確率をかけたものである。A が起きたあとに
B が起きる確率が A と B が同時に起きる確率と同じであり、A と B を入れ替えても同じこ
とが言えるならば、
。A と B が同時に起きる確率とは、B と A が同時に起きる確率と同じだ
から、
P(A) ∙ P(B|A) = P(B) ∙ P(A|B)
この式より
P(A|B) P(A)
=
P(B|A) P(B)
が導かれる。
この証明は何か当たり前のことを難しい言葉に言い換えて繰り返しているようで、かえっ
て理解しにくいかもしれない。このことの具体的なイメージは次の例の計算をしてみると
わかりやすいかもしれない。
10 本のクジがあり、その中に3本の当たりクジがあるときに、2回クジをひいて、2回と
もあたる確率について2つの方法で考える。
普通は次の様に考える。
1 回目に当たり籤を引く確率は、3/10 である。これは P(A)に相当する。もし一回目に当た
りクジがでると、のこりのクジは9本でその内2本が当たりくじである。したがって、2
回目に当たる確率は 2/9 である。これはP(B|A)に相当する。この確率の積は
3 2
1
∙ =
10 9 15
と計算される。この計算はP(A ∩ B) = P(A) ⋅ P(B|A)の式の右辺の計算の仕方である。
しかし、組み合わせ数学を知っている人間はもう少し違った計算をするだろう。
クジには当たり外れ以外に一つずつ番号がついていると考えるのである。それらの中から
2つを選び出す組み合わせは、どんな組合わせでもそれが生じる確率は同じだから、まず、
10本のクジから2本を選び出す組み合わせの総数を考える。これは
10C2
と表せる。この
中で2本の当たりクジが含まれている組み合わせもすべて含まれている。つぎにその中に
2本とも当たりくじである組み合わせの数を考える。これは3本の中から2本を選び出す
組み合わせの数だから、3C2 がその組み合わせの数となる。それぞれの組み合わせが生ずる
確率はすべての組み合わせについて同じなのだから、全ての組み合わせの数に対する。当
たりクジだけの組み合わせの数の比を求めれば、当たりクジを2本引く確率になるはずで
ある。
つまり
3 C2
10 C2
を計算することになる。
3∙2
2⋅1
10∙9
2∙1
=
1
15
これは左辺を直接に計算していることになり、確かにに数値は一致する
我々が導いた
P(A|B) P(A)
=
P(B|A) P(B)
という式は普通、ベイズの定理と言われ
P(B|A) =
P(B) ⋅ P(A|B)
P(A)
式 89
と書かれる。話を前に進める。
ここで、A を仮説、B をデーターという言葉に変える。
すなわち
事象 A:仮説が正しい
排反事象 A’:仮説が間違っている。
事象 B:ある値のデーターが得られる。
排反事象 B’:ある値のデータが得られない。
このように置き換えるとそれぞれの確率は次のように言いかえることができる・
P(A|B):あるデーターが得られた時に、その仮説が正しい確率
P(B|A):ある仮説が正しい時に、そのデーターが得られる確率
P(A):ある仮説が正しい確率。
P(B):あるデーターが得られる確率。
ここで仮説とは何でもよいのであるが、たとえば観察されたある事象の平均値が m である
というようなことを考えれば良い。
そうすると、P(B|A)は.平均値が m の時に、あるデーターが得られる確率ということにな
り、尤度といわれているものである。
仮説が正しい確率 P(A)については次のようなことが言える。そんなものが初めから分かっ
ていれば苦労はない。この時計算された P(A)は、今、もっとも最新のデータを使って計算
された仮説が正しい確率なのだから、初めにいい加減に与えた P(A)よりは、はるかにまし
な P(A)だろう。だから、次からは、この値を少し自信を持って P(A)(仮説の確からしさ)と
して使えば良いということになる。しかも、この場合、事象 A とその余事象(排反事象)A’
の確率、P(A)と P(A’)は、仮説の確かさであるから、事象 B とはかかわりのない独立事象で
あり、事象 B、B’にかかわりなく、共通に使える。P(A|B)と P(A’|B)を次の計算での P(A)、
P(A’)として、次々に計算を繰り返していけば、いつかは、神のみぞ知る、仮説の確からし
さに次第に接近していくことができる。これが、ベイズ統計の基本的な考え方である。
たとえば、ある確率的な事象のもとである確率的な事象が起こるケースを考える。たとえ
ば次のようなケースである。
2つの箱がある。αとβと名前がついているのだが、どちらがαでどちらがβかはわから
ない。ただ、αには赤玉が3個、白玉が1個入り、βには赤玉が1個、白玉が3個入って
いる。一つの箱を選んで、それがαであるかβであるかを言い当てるというゲームを考え
る。参加者は、1回に一つ箱から玉を取り出し、その色を確めて玉を箱に戻す。どのくら
いの試行で箱がαかβか言い当てられるのだろうか。
ここで
事象 A は選んだ箱がαであること
事象 A’は選んだ箱がβであること
事象 B は取り出した玉が赤であること、
事象 B’は取り出した玉が白であること
とすると
P(A)とは、選んだ箱がαである確率であり’
P(A’)とは、選んだ箱がβである確率となる。
P(B)とは、赤玉が取り出される確率
P(B’)とは、白玉が取り出される確率
P(A|B)は、赤玉が出たときに、選んだ箱がαである確率
P(B|A)は、選んだ箱が α であったときに赤玉が取り出される確率
ところで、P(B)は、箱がαであって赤玉が出てくる場合と、箱がβであって赤玉がでてく
る両方の場合があるので
と表される
P(B) = P(A) ⋅ P(B|A) + P(A′ ) ⋅ P(B|A′)
式3
以上より
P(A|B) =
P(A|B′) =
P(A) ⋅ P(B|A)
P(A) ∙ P(B|A) + P(A′ )P(B|A′)
P(A) ⋅ P(B′|A)
P(A) ∙ P(B′ |A) + P(A′ )P(B′ |A′)
と赤玉、白玉が出たときそれぞれに、選んだ箱がαである確率が計算される。
ところで、P(B)については情報を与えられているが、P(A)については何も情報がない。
そこで、第1回目は P(A)=1/2 とし
第二回目以後は、
前の回に得られた、
P(A|B)あるいは P(A|B′)を P(A)として使うことにする。
第一回目は赤が出た
P(A|B)=
1 3
� �� �
2 4
1 3
1 1
� �� �+� �( )
2 4
2 4
3
=
4
P(A’{B}=1 − P(A|B) =
3 1
� �� �
4 4
3 1
1 3
� �� �+� �( )
4 4
4 4
1
4
二回目は白が出た
P(A|B′) =
(この値が次の P(A)として使われる。)
1
=
2
P(A’{B’}=1 − P(A|B′) =
第3回目は赤が出た。
P(A|B) =
1 3
� �� �
2 4
1 3
1 1
� �� �+� �( )
2 4
2 4
2
3
=
4
P(A’{B}=1 − P(A|B) =
3 3
� �� �
4 4
3 3
1 1
� �� �+� �( )
4 4
4 4
P(A’{B}=1 − P(A|B) =
=
1
4
第4回目も赤が出た
P(A|B) =
1
9
10
1
10
この計算例のように、最初に与えられる仮説的な確率がどのような値であっても、0
または1でなければ、次第に、確率は 0 か 1 に近づき、確からしさが増してくる。
つまり、最初は見当はずれであっても、正しい情報を加えてその都度計算していけば、次
第に正しい答えに近づくことがわかる。
この計算では、データの確からしさは、サンプル集団の分布から母集団の分布を推測する
という、頻度主義的な統計解析から求められたのではないということも注目すべきことで
ある。
次にもう一つベイズの公式の使い方の具体例を挙げる。
メールのタイトルに使われてる単語を使って、スパムメールであることをコンピュータに
判断させて、自動的にスパムメールを振り分けるという例である。スパムメールをフル分
けるソフトがベイズ理論に基づいていることは、良く知られている。その例を使って、機
械に学習させるとはどういうことかを考える。
ここで扱う事象は
事象 A:スパムメールである。
事象 A’:スパムメールでない。
事象 B:ある単語がタイトルに使われている(たとえばバイアグラ)
事象 B’:ある単語がタイトルに使われていない。
である。
求めるものは知りたいことは、ある単語が使われていた時に、その単語をスパムメールで
あるコンピューターが判断してよいかという問題である。つまりある単語が使われていた
時にそれがスパムメールである確率である。
これは P(A|B)であるから
P(A|B) =
としてこの確率を計算すれば良い。
P(A) ⋅ P(B|A)
P(B)
P(A)は受け取ったメールの中のスパムメールの割合
P(B)は受け取ったメールのタイトルの中で、その単語が使われている割合。
ここで、P(B|A)とは何かを考えると、これはスパムメールと判定したものの中にその単語
が使われている割合である。
スパムメールであるかないかを判断するのは、メールを受け取った人である。たとえば、
バイアグラは多くの人にとってはスパムメールと判断される単語だが、バイアグラの情報
を集めている人にとってはスパムではない。つまり、機械は人の判断を学習しているので
ある。仮に、機械がスパムと判断した後に、人がそれを追認して、そのままスパムとして
取り扱えば、それは人がスパムと判断したのであり、あとからスパムメールでないと判断
して、スパムメールのファイルから通常のメールに移し替えれば、機械は人がそのメール
をスパムでないものとして受け入れる。人がそのような判断をするたびに、そのメールも
含めて過去のスパムメールの中でその単語が使われた割合を計算し、その単語が使われて
いる数と、スパムメールの数の比を乗じて、その単語が使われていた時にスパムメールで
ある確率を計算する。こうして、これがある確立水準以上であれば、スパムメールと判断
して、以後、その単語が使われているメールが来れば、スパムメールと判断する。これを
繰り返しているうちにコンピューターがスパムメールを判断する精度が増してくる。私は
素人なので実際に使われているアルゴリズムがどうなっているのかは知らない。おそらく
実際はもう少し複雑なのだと思うが、機械学習のシステムはこういう考え方に基づいてい
る。スパムメールのタイトルの流行などは、すぐに変わるので、あらかじめ全ての単語に
ついてのスパム率を与えることなどできないだろう。そうでもしなければ、現実に有るス
パムメールの判断などはできないだろ
最後に、離散的な統計計算における平均値の「信頼限界」に相当する、平均値の「信用区
間」について考える。
その前に信頼区間は幅を持った広がりの概念であるので、排反事象が従来のように2つし
かない式では扱えない。
P(B) = P(A) ⋅ P(B|A) + P(A′ ) ⋅ P(B|A′)
式 90
P(A|B) =
P(A) ⋅ P(B|A)
P(A) ∙ P(B|A) + P(A′ )P(B|A′)
式 91
の変形を考える。
排反事象が二つしかないのは不便であるから、お互いに両立しない背反的ないくつかの仮
説があると考える、例えば、
仮説 H1:0 < 𝑚𝑚 ≤ 1
仮説 H2:1 < 𝑚𝑚 ≤ 2
仮説 H3:2 < 𝑚𝑚 ≤ 3
仮説 H4:3 < 𝑚𝑚 ≤ 4
仮説 H5:4 < 𝑚𝑚 ≤ 5
仮説 H6:5 < 𝑚𝑚 ≤ 6
仮説 H7:6 < 𝑚𝑚 ≤ 7
仮説 H8:7 < 𝑚𝑚 ≤ 8
仮説 H9:8 < 𝑚𝑚 ≤ 9
仮説 H10:9< 𝑚𝑚 ≤ 10
とする。
ここで、式 91 の A を H,B を D と書き換える
つまり、P(H)はその範囲に平均値があるという確率であり、P(D)はそのデーターがあらわ
れる確率である。H についてはそれぞれの仮説が互いに排反事象でそれら全部の中で、デ
ーターD が現れる確率だから
式3は
P(D) = ∑10
i=1 P(Hi ) ⋅ P(D|Hi )
P(Hi )⋅P(D|Hi )
P(Hi |D) = ∑10
となる。
i=1 P(Hi )∙P(D|Hi )
以下、標本からランダムにデータを取り出し、その都度この計算を行えば、変動しながら
も、それぞれの仮説が成り立つ、確率は、ほぼ一定の値に近づき安定してくるであろう。
最初の P(Hi )をどのように与えるかという問題があるが、様々なことが考えられる、しかし、
わからなければ、第一段階では均等として、10分の1にしてしまうこともあり得るだろ
)とした
う。次にP(D|Hi )である。これは、その仮説が正しい(その範囲内に平均値がある。
時にそのデーターが得られる確率(尤度)であるが、これも一般的には何が正しいとは言
えない。データーの値と仮説的な平均値の距離に応じて何らか尤度のモデルを考えて、確
率を計算することになる。いずれにしても、安定するまで計算を繰り返す。安定したら、
それらのそれぞれのサイズクラスの確率をサイズに対してプロットし、両側から 0.025 ず
つの面積を削るように、サイズの線を引けば、5%のエラー水準で、信用区間を求めるこ
とができる、この区間は、頻度主義の統計における、信頼限界と一致することが知られて
いる。
また、この説明では、不連続なデーターを考えて、データーを区間に区分し、P(D)を区分
の総和∑であらわしているが、連続的な値として積分型で与えることも可能である。