数学のかたち R09

統計数学 特別課題①
最高桁の数を調べる(2)
09.05
SANAE Masashi
前回レポートのまとめ①
1と2がダントツで多い。割合的に60%以上ある。
1と2が多いのは,郵便番号や電話番号,2000
年からの年数が多いからだと思います。また,2
月の記事なので1月2日のニュースが多いのも
関係していると思いました。
前回レポートのまとめ②
小さい数が多く,大きい数は少ない。1が異常に
多く,だんだん少なくなり,4から9まではあまり差
がない。
電話番号のフリーダイヤル。日付は13日や23
日があるので若い数字が多い。時間表示を24
時間制にすると13:00のようにある。住所でも1
丁目や2丁目のほうが9丁目より多い。
前回レポートのまとめ③
数が上がるほど出る数は少なくなる。1,2が圧
倒的に多い。
数字の1や2は「10」とか「20」に使われやすい
し,数字の「1」は様々な熟語や数「千」など色々
な用途で使われるが,7や6などは下一桁で使わ
れることはあっても,最初の数として出ることはほ
とんどないと思う。
前回レポートのまとめ④
「1」が一番多い。1から順にいくにつれ,どんど
ん個数が減っている。9で何故かちょっとあがる。
1が多く出たのは「一人」や「1800円」など1から
始まる数字が多くのっていたからである。特に記
事には本の値段が載っていて,本の値段ではあ
まりにも高い数字は出てこず,千円台が多かった。
だから,1が良く出てきたのではないか。9が少し
多かったのは本の商品コードの始まりが「9」だっ
たから。
前回レポートのまとめ⑤
2が圧倒的に多く,ついで1が多かった。3,5~
7は同じくらいで,4,8,9は少ない。
2は2月,2009年などが多いから。1は小さな数
字は「1人,2人・・・」とか「1000人・・・」などのよ
うに多用されるから。8,9ななどのように大きな
数字はあまり多様性がないためあまり出てこない。
4や9は日本で不吉な数であるとされているため,
あえて使おうとしない傾向にあるから。
最高位の数字が1と2である数
1
2
3
4
5
6
7
8
9
10
1
1
1
1
1
1
1
1
1
1
2
1の割合
0.1
0.5
0.33
0.25
0.2
0.17
0.14
0.13
0.11
0.2
2
0
1
1
1
1
1
1
1
1
1
2の割合
0
0.5
0.33
0.25
0.2
0.17
0.14
0.13
0.11
0.1
最高位の数字が1と2である数
11
12
13
14
15
16
17
18
19
20
1
3
4
5
6
7
8
9
10
11
11
1の割合
0.27
0.33
0.38
0.43
0.47
0.50
0.53
0.56
0.58
0.55
2
1
1
1
1
1
1
1
1
1
2
2の割合
0.09
0.08
0.08
0.07
0.07
0.06
0.06
0.06
0.05
0.1
割合を折れ線グラフにする
1から3000までの1の出る割合
19
199
1999
999
99
片対数グラフへの変換 1の場合
10
100
1000
片対数グラフへの変換 2の場合
1
0.8
0.6
0.4
0.2
0.5
1
1.5
2
2.5
3
3.5
片対数グラフへの変換 3の場合
1
0.8
0.6
0.4
0.2
0.5
1
1.5
2
2.5
3
3.5
ポアンカレのルーレット定理①
1000
100
10
1
1
0周
log10 1
10
1周
log10 10
100
2周
log10 100
1000 3周
10の指数乗
log10 1000
ポアンカレのルーレット定理②
1
10
100
0周
1周
2周
1000 3周
log10 0
log10 10
log10 100
log10 1000
1
log10 1  0
2
log10 2  0.301
3
log10 3  0.477
4
log10 4  0.602
5
log10 5  0.699
6
log10 6  0.778
7
log10 7  0.845
8
log10 8  0.903
9
log10 9  0.954
ポアンカレのルーレット定理③
1
log10 1  0
2
log10 2  0.301
3
log10 3  0.477
4
log10 4  0.602
5
log10 5  0.699
6
log10 6  0.778
7
log10 7  0.845
8
log10 8  0.903
9
log10 9  0.954
ポアンカレのルーレット定理④
1になるのは
0301-0
= 0.301
2になるのは
0.4771-0.301
= 0.176
3になるのは
0.602-0.477
=0.125
ポアンカレのルーレット定理⑤
8周
284,572,341 = 2.84572341×108
<
log10 2  0.301
<
2.84572341
log10 3  0.477
n で始まる数の割合
log10  n  1  log10 n
ベンフォード則
不正経理の操作
マーク・ニグリニ先生の課題
「企業収支の各数値の最高桁が
ベンフォード則に従った分布を示すか確かめよ」
ある学生が親戚の金物屋の帳簿を調べると・・・
1から始まる数値の割合93%
ベンフォード則から
不正経理
残りの数値8か9で始まる
かけ離れた値
多くの会計士が不正経理を発見する方法として
ベンフォード則を採用するようになった