統計解析 第2回 第1章 データの表現

統計解析
第1章 データの表現
今日学ぶこと
• 基本用語
–
–
–
–
–
[有限、無限]母集団
[量的、質的]変量
母数
標本
統計量
• 度数分布表
– 相対度数、離散変量
• ヒストグラム
– 級間隔、連続変量、真の級限界、度数多角形、級中央値、
累積度数図
基本用語
30人の同居家族数
1
0
4
0
6
2
1
7
1
1
0
2
0
1
0
1
1
2
3
6
3
0
1
3
2
0
1
4
3
2
量的変量:数字で表せる変量
(ex.人数、金額)
質的変量:数字で表せない変量
(ex.血液型)
標本:日本人30人
母集団:日本人
変量:同居家族数
母集団:情報が必要とされている人や物の集合
有限母集団:数に限りがある母集団(ex.人)
無限母集団:数に限りがない母集団(ex.博打)
標本:母集団の部分集合で実際にデータを得られたもの
統計量:平均などの推定値
母数:平均などの実際の数値
離散変量
30人の標本の同居家族数
1
0
4
0
6
2
1
0
3
7
1
3
1
0
1
1
1
2
0
1
1
2
2
3
6
0
3
0
4
2
離散変量:特定のいくつかの値をとる
(同居家族数であり表の例では0以上の整数)
度数分布
同居家族のデータに対する度数分布表
変量の値
度数
相対度数
0
7
0.233333
1
9
0.3
2
3
4
5
4
2
0.166667
0.133333
0.066667
5
6
7
0
2
1
0
0.066667
0.033333
合計30人
30人の標本の同居家族数
1
0
4
0
6
2
1
7
1
1
0
2
0
1
0
1
1
2
3
3
1
2
1
3
6
0
3
0
4
2
相対度数
=度数 / 合計数
棒グラフ
図1.1 表1.2のデータに対する棒グラフ
10
8
度 6
数 4
2
0
0
1
2
3
4
同居家族数
5
6
7
同居家族のデータに対する棒グラフ
(度数分布図)
各軸の値、意味は必ず書く
(必要ならば単位も書く)
30人の同居家族数
の度数分布表
変量の値
0
度数
7
1
2
3
9
5
4
4
5
6
2
0
2
7
1
表や図には必ず見出しを付ける
一般に、表は上、図は下
練習問題
さいころを10回ふりました
3,2,3,4,3,5,2,4,6,6
度数分布表
3.5
3
変量
1
2
3
4
5
6
度数
0
2
3
?
2
1
2
2.5
?
度 2
数 1.5
1
0.5
0
1
2
3
4
さいころの目
5
度数分布の棒グラフ
6
連続変量
30人の標本の所有土地面積(平方メートル)
309.3943 430.8908 189.2709 71.32014293 228.1376 139.7397
17.338 427.4707 264.6121 172.7159713 54.27642 128.4835
528.6089 54.53822 63.04389 289.3790076 102.1777 279.8676
16.70293 182.8751 22.12768 481.1683066 163.1621 87.96185
222.0811 389.7869 107.695 35.85099046 32.6083 138.7269
連続変量:任意の値をとり得る変量
30人の標本の所有土地面積(平方メートル)
309.3
430.8
189.2
71.3
228.1
139.7
17.3
427.4
264.6
172.7
54.27
128.4
528.6
54.5
63.0
289.3
102.1
279.8
16.70
182.8
22.1
481.1
163.1
87.9
222.0
389.7
107.6
35.8
32.6
138.7
度数分布表
所有土地面積のデータに対する度数分布表
級間隔
真の級限界
級中央値
度数
(平方メートル)
(平方メートル)
(平方メートル)
1-100
0.5-100.5
50.5
10
101-200
100.5-200.5
150.5
9
201-300
200.5-300.5
250.5
5
301-400
300.5-400.5
350.5
2
401-500
400.5-500.5
450.5
3
501-600
500.5-600.5
550.5
1
級中央値 = (真の級限界の上限 + 真の級限界の下限) / 2
級間隔の取り方は後述
土地所有面積のデータに対する度数分布表
級間隔
真の級限界
級中央値
(平方メートル)
(平方メートル)
(平方メートル)
1-100
0.5-100.5
50.5
10
101-200
100.5-200.5
150.5
9
201-300
200.5-300.5
250.5
5
301-400
300.5-400.5
350.5
2
家ごとの土地面積
401-500
400.5-500.5
450.5
3
501-600
500.5-600.5
550.5
1
ヒストグラム
級中央値
12
10
8
度
6
数
4
度数多角形
2
0
0.5 1100.5 2200.5 3300.5 4400.5 500.5
600.5
5
6
土地面積(平方メートル)
土地所有面積のデータのヒストグラム
度数
級間隔の選び方
土地所有面積のデータに対する度数分布表
級間隔
真の級限界
級中央値
(平方メートル)
(平方メートル)
(平方メートル)
度数
1-100
101-200
201-300
301-400
0.5-100.5
100.5-200.5
200.5-300.5
300.5-400.5
50.5
150.5
250.5
350.5
10
9
5
2
401-500
501-600
400.5-500.5
500.5-600.5
450.5
550.5
3
1
各度数が5くらいになるのがよい
→級の数が 総度数 / 5 くらいになるのがよい
今回の場合、総度数 / 5 = 30 / 5 = 6
真の級限界の解釈
級間隔
真の級限界
(平方メートル)
(平方メートル)
1-100
0.5-100.5
101-200
100.5-200.5
201-300
200.5-300.5
301-400
300.5-400.5
401-500
級間隔
501-600
(平方メートル)
400.5-500.5
真の級限界
500.5-600.5
(平方メートル)
級間隔
真の級限界
(平方メートル)
(平方メートル)
0-100
0-100
100-200
100-200
200-300
200-300
300-400
300-400
0-
0-100
400-500
400-500
100-
100-200
500-600
500-600
200-
200-300
300-
300-400
400-
400-500
500-
500-600
同居家族数に対する度数分布表
変量の
値
度数
相対度数
累積度数
0
7
0.233333
7
1
9
0.3
16
2
5
0.166667
21
3
4
0.133333
25
4
2
0.066667
27
5
0
0
27
6
2
0.066667
29
7
1
0.033333
30
累積度数図
同居家族数の累積度数図
35
30
累 25
積 20
度 15
数 10
5
0
0
1
2
4
3
同居家族数
5
6
同居家族数の累積度数図
7
度数分布表
変量
度数
1
2
0
2
3
4
5
3
2
1
6
2
練習問題
累積度
数
0
2
?
5
7
8
10
さいころを10回ふりました。
12
10
累 8
積
6
度
数 4
?
2
0
1
2
3
4
さいころの目
累積度数図
5
6
土地面積のデータに対する度数分布表
級間隔
真の級限界
級中央値
度数
累積度数
(平方メートル)
(平方メートル)
(平方メートル)
1-100
0.5-100.5
50.5
10
10
101-200
100.5-200.5
150.5
9
19
201-300
200.5-300.5
250.5
5
24
301-400
300.5-400.5
350.5
2
26
401-500
400.5-500.5
450.5
3
29
501-600
500.5-600.5
550.5
1
30
35
30
累積度数図
25
累
積 20
度 15
数
10
5
0
1
2
3
4
5
6
100.5
200.5
300.5
400.5
500.5
600.5
土地面積(平方メートル)
一人あたりの土地所有面積の累積度数図
おわり
• その他トピック
– 級間隔が等しくないヒストグラム
– 度数密度