ベンフォードの法則

数 学 玉 手 箱
URL
http://izumi-math.jp/sanae/
E-mail
[email protected]
ベンフォードの法則
統計の時間に次のようなテーマで実習を行いました。
【テーマ】 新聞に載っている数字を調べよう
今日の新聞の第 1 面を見るとたくさんの数字が載っている。「16 兆円の景気対策・・・」「10 月入学
を採用・・・」「84 年以降・・・」「30 万人余りと米国へ・・・」。
これらの数字はお互いに無関係であって,ほぼランダムにとってきた数字と思ってよい。本によると,
実は,これらの数字はある傾向の分布をするというのだ。たとえば,1 から始まる数字は,どれくらい
あるだろうか。2 から始まる数字はどうだろう。3 から始まる数は? 普通,1 から 9 まで同じくらいの
割合だと思うが,そうではないらしい。
そこで新聞のどこでもいいので 1 面にある数字の「最高位の数字の個数を調べて,その傾向を探る」
事を課題としたいと思います。漢数字も数値と考えて下さい。また,0 で始まる場合は 0 をとった次の
数値を最高位の数字として下さい。
(例) 総額で 2008 年 → 2, 二〇〇八年以降 → 2, 09 年度 → 9
〒604-8577 → 6,
(075)241-5430 → 7
そのときの生徒の考察をいくつか載せてみます。
1 と 2 がダントツで多い。割合的に 60%以上ある。1 と 2 が多いのは,郵便番号や電話番号,2000
年からの年数が多いからだと思います。また,2 月の記事なので 1 月 2 日のニュースが多いのも関
係していると思いました。
② 小さい数が多く,大きい数は少ない。1 が異常に多く,だんだん少なくなり,4 から 9 まではあま
り差がない。電話番号のフリーダイヤル。日付は 13 日や 23 日があるので若い数字が多い。時間表
示を 24 時間制にすると 13:00 のようにある。住所でも 1 丁目や 2 丁目のほうが 9 丁目より多い。
③ 数が上がるほど出る数は少なくなる。1,2 が圧倒的に多い。数字の 1 や 2 は「10」とか「20」に使
われやすいし,数字の「1」は様々な熟語や数「千」など色々な用途で使われるが,7 や 6 などは下
一桁で使われることはあっても,最初の数として出ることはほとんどないと思う。
このように実は 1 や 2 が多くあらわれるのですが、それにはしっかりとした理由があるのです。
次の左のグラフは単純に 1 から 3000 までの 1 の出る割合を表したグラフで、右側は左のグラフの横
軸の数値を 10 の指数乗に変換したものです。
10 → 1, 100 → 2, 1000 → 3
これは常用対数をとることを意味しています。
log10 10 1 , log10 100 2 , log10 100 3
①
1
1
0.8
0.8
0.6
19
199
0.6
1999
0.4
0.4
0.2
0.2
999
99
500
1000
1500
2000
2500
0.5
3000
1
1.5
2
2.5
3
3.5
同様にして 2 と 3 の出る割合を、片対数グラフへ変換したものが次の 2 つです。
1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.5
1
1.5
2
2.5
3
3.5
0.5
1
1.5
2
2.5
3
3.5
次のように 10 倍するごとに 1 桁上がる構造を円周
で考えてみましょう。今,10 倍すると 1 周,さらに
10 倍すると 2 周という対応を考えます。たとえば,
1 からスタートするならば,1 は 0 周,10 倍して 10
は 1 周,さらに 10 倍して 100 は 2 周,という具合に
考えるのです。
すると,1や 10 や 100 は,対数関数 log10 x で周
回数と対応させることができて,
log10 1 0 (周), log10 10 1 (周), log10 100 2 (周)
となります。次に,2~9 の 1 桁の数は,0 周から 1 周の間にあることになり,それらが何周に相当する
かは,次のように求められます。
log10 2 0.301 (周), log10 3 0.477 (周), log10 4 0.602 (周), log10 5 0.699 (周),
log10 6 0.778 (周), log10 7
0.845 (周), log10 8 0.903 (周), log10 9 0.954 (周)
数
1
2
3
4
5
6
7
8
9
0
0.301
0.477
0.602
0.699
0.778
0.845
0.903
0.954
周
この指数の幅から確率を求めることができるのです。
1 になるのは 100~0.3010
0301-0 = 0.301
2 になるのは 100.3010~0.4771
0.4771-0.301 = 0.176
3 になるのは 100.4771~0.6020
0.602-0.477 =0.125
・・・
どうですか。先ほど考察した数字と同じになっていると思います。
ベンフォード則では,最高桁の数だけに着目しているので,それが何桁の数であるかは無視すること
になります。具体例をあげましょう。たとえば,284,572,341 を考えます。
284,572,341 = 2.84572341×108
ここで log10 2 0.301 <2.84572341< log10 3 0.477 より,8 周を通り過
ぎ,更に log10 2 0.301(周)よりもう少し通り過ぎたところにありますが,
log10 3 0.477(周)よりは手前にあるということになります。このことは,
最高桁が 2 の数は,それが何桁の数であっても,0.301 周から 0.477 周の間
のどこかにあることを意味しています。したがって,無作為に取ってきた
数の最高桁が 2 である確率は log10 3 log10 2 0.477 0.301 0.176 とい
う計算になります。一般的に n で始まる数の割合は,次の式で求めること
ができます。
log10 (n 1) log10 n
先ほどの式で n で始まる数の割合は,次の表のようになります。
1
2
3
4
5
6
7
8
9
数
割合(%)
30
18
12
10
8
7
6
5
4
この分布は,1939 年,ゼネラル・エレクトリック社の技術者フランク・
ベンフォードが発見したもので,都市の人口,株価,川の長さ,スポーツ
の成績など様々な数に当てはまります。サンプル数が十分に多く,値の範
囲が制限されていないものであれば,どのようなものにも当てはまります。
この分布に従うことを発見者の名をとって,ベンフォード則に従うといい
ます。(値の範囲が制限されるもの,例えば,電話番号は桁数が限られて
おりベンフォード則には従わない。)
ベンフォード則に纏わる面白い話題があります。1990 年代初め,会計学
校講師のマーク・ニグリニは,学生たちに企業収支のデータについて,あ
ることを調べるように課題を出した。それは,「企業収支の各数値の最高
桁の数字がベンフォード則に従った分布を示すかどうか確かめよ」という
ものでした。
ある学生が親戚の経営する金物屋の帳簿を調べたところ,その数字の分布はベンフォード則の分布と
は全く違うものになりました。それは,1 から始まる数値はベンフォード則によれば 30%のはずなのに,
この帳簿では 93%もあったのです。そして,残りはすべて 8 か 9 で始まる数値でした。つまり,この帳
簿に何かおかしなところがあるということを示す結果となってしまったのです。これをきっかけに,多
くの会計士が不正経理を発見する方法としてベンフォード則を採用するようになったのです。
<参考資料>
最高桁の数 ~ ベンフォード則と不正経理の捜査 ~ (正田 隆)