2001年度 経済統計処理講義内容

1変量データの記述
(度数分布表とヒストグラム)
経済データ解析 2007年度
あるクラスのテストの点数が次のようになっ
ていたとする。
出席番号
1
2
3
4
5
6
7
8
9
10
得点 出席番号
39
11
22
12
67
13
60
14
43
15
20
16
46
17
47
18
20
19
30
20
得点 出席番号
63
21
69
22
78
23
88
24
73
25
20
26
58
27
87
28
47
29
75
30
得点 出席番号
44
31
69
32
34
33
20
34
17
35
63
36
36
37
7
38
27
21
得点
44
66
33
54
34
69
60
23
このように出席番号と点数が並んでいるものだけでは、こ
のクラスの特徴がわかりづらい。
→ このクラスの特徴がわかるような工夫が必要
1変量データの記述方法
数値による表現
– 中心的傾向(算術平均、メディアン、モード)
– 散らばりの尺度(分散、標準偏差、レンジ、四分位偏
差)
※ これらの数値のことを統計量または特性値という。
視覚的な表現
– 表による表現(度数分布表)
– グラフによる表現(ヒストグラム)
中心的傾向
ある集団についてのデータ(例えば50人のクラスの
身長など)があるとき、集団の特徴をあらわすには、
その中心的傾向を示す数値が必要となる。
中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)
の3種類がある。
算術平均
算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数
x
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
60  90  80  50  70  10  60  80  20  80 600

 60
10
10
メディアン(中央値)
メディアン → データを大きさの順に並べた
ときに真ん中にくる値。データ数が偶数のとき
は真ん中の2つの値を足して2で割る。
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
点数の低い順に並べ替え
10
20
50
60
60
70
真ん中
80
80
80
90
この2つを足して2で割った
(60+70)÷2=65がメディアン
モード(最頻値)
モード - データの中で最も多く出てくる
値。10人のテストの点数の例では
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくる
ものではなく、度数分布表にしたときに、最も度数の多い
階級の階級値をモードと考える。
散らばりの尺度(1)
教員A
チャイムの5分後
に必ず教室にくる。
教員B
チャイムと同時に
教室にくることもあ
れば、15分以上
遅れることもある。
2人の教員はともに平均してチャイム
の5分後に教室にくる
散らばりの尺度(2)
2人の教員の特徴を表現するために、平均
だけでは不十分。
→散らばりの尺度の必要性
散らばりの尺度として
–
–
–
–
分散
標準偏差
レンジ(範囲)
四分位偏差
などがある。
分散(1)
分散=偏差2乗和÷データ数
偏差2乗和-個々のデータから算術平均を引いたも
の(偏差)を2乗して、すべて加えたもの。
n
( x1  x )  ( x2  x )    ( xn  x )
 

n
10人のテストの点数の例では
2
2
2 

2
2
 (x
i 1
i
 x )2
n
(60  60) 2  (90  60) 2  (80  60) 2  (50  60) 2  (70  60) 2  (10  60) 2  (60  60) 2  (80  60) 2  (20  60) 2  (80  60) 2
10
6400
 640
10
分散(2)
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
算術平均60を引く
偏差
0
30
20
-10
10
-50
0
20
-40
20
400 1600
400
2乗を求める
0
900
400
100
100 2500
0
合計を求める
6400
データ数10で割る
640
分散
標準偏差
標準偏差 ⇒ 分散の平方根
n
  2 
 (x  x)
i 1
2
i
n
10人のテストの点数の例では
  640≒25.298
レンジ(範囲)
レンジ ⇒ データの取りうる範囲
レンジ = 最大値 ー 最小値
四分位偏差(1)
データを大きさの順(小さい順)に並べて、4分
割する点をq1,q2,q3とする。
このとき、次式で定義されるQを四分位偏差
という。
(q3  q1 )
Q
2
最小値
q1
q2
q3
最大値
四分位偏差(2)
(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
点数の低い順に並べ替え
10
最小値
20
50
q1
60
60
70
q2
80
q3
80
90
最大値
(メディアン)
q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値
Q
(80  50) 30

 15
2
2
統計量とExcel関数の関係
統計量がそのまま求められるもの
–
–
–
–
–
算術平均
メディアン
モード
分散
標準偏差
⇒
⇒
⇒
⇒
⇒
関数AVERAGE
関数MEDIAN
関数MODE
関数VARP
関数STDEVP
工夫の必要なもの
– レンジ ⇒ 最大値(関数MAX)と最小値(関数MIN)の利用
– 四分位偏差 ⇒ 四分位数(関数QUARTILE)の利用
(例) q1 ⇒ = QUARTILE(範囲,1)