記述統計学(1)

記述統計学 (1)
データの種類
1
データは,大きく分けて量的変数 (計量データ) と質的変数 (計数データ) がある.それぞれの
意味を以下に示す:
・ 量的変数:個体がとる値が予め決まっていない.そのため,変数の値の大きさ (量) が意
味をもつ (平均値が意味をもつ)
・ 質的変数:個体がとる値が予め決まっている.候補となる値のことをカテゴリという.そ
のため,変数の値の大きさ (量) が意味をもたない (平均値が意味をもたない)
さらに,質的変数は名義変数と順序変数に分けられる1 .以下に説明と例示を示す.
形式
質的変数
量的変数
詳細
説明
ある個体 (対象) が他とは異なるか同一
名義変数 かという判断のみの基準.同じ値で関
係が識別される
ある個体 (対象) が他より「大きい」あ
るいは「良い」といえる判断の基準 (大
順序変数
小関係はあるものの単位はない) 値の
順序関係のみ
ある個体は他よりもある単位によって
―
「∼だけ多い (少ない)」といえる判断の
基準 値が意味をもつ
例示
性別,血液型,好きな
色
アンケートの 5 段階評
価,リレーの順位
年齢, 慎重,体重,気温
計量データの要約の方法
2
2.1
2.1.1
位置を表す指標
平均値
n 個のデータ x1 , x2 , . . . , xn があるとき,平均値は下記のとおり.
1
1∑
x¯ = (x1 + x2 + · · · xn ) =
xi
n
n i=1
n
1
量的変数は間隔変数と比率変数に分けられるが統計解析の方法が異なるわけではないのでここでは省く
2.1.2
中央値
中央値 (データの真ん中を表す指標) は,先ず,データを小さい順に並べ替える.そして,次
の計算式で計算される番号のデータが中央値である:t = 1 − 0.5 + 0.5 × n.標本サイズと中央
値の番号の例を以下に示す.
標本サイズ n
中央値の番号 t
5
3.0
6
3.5
7
4.0
8
4.5
9
5.0
10
5.5
11
6.0
12
6.5
13
7.0
14
7.5
15
8.0
このとき,小数点がある場合には,整数値の前後で平均値をとる.例えば,n = 10 の場合には,
t = 5.5 である.5 番目の観測値を x(5) ,6 番目の観測値を x(6) とするとき,中央値は,(x(5) +x(6) )/2
で与えられる.
2.2
2.2.1
バラツキを表す指標
分散・標準偏差
n 個のデータ x1 , x2 , . . . , xn があるとき,分散は下記のとおり:
(x1 − x¯)2 + (x2 − x¯)2 + · · · + (xn − x¯)2
1∑
=
(xi − x¯)2 ,
n
n i=1
n
s2 =
ここに,x
¯ は,x の平均値である.分散とは,平均値まわりでのバラツキを表す指標である.
さらに標準偏差は,
√
s = s2
である.標準偏差とは,分散 (実際の単位の 2 乗値) をもとの尺度に戻したものである.
2.2.2
範囲
範囲は,最大値-最小値で表され,全データが含まれる範囲として定義される.
2.2.3
四分位範囲
四分位範囲とは,中央値に対応するバラツキを表す尺度である.これは,観測値を小さい順
に並べ替え,4 等分したときの最初の区分値と 3 番目の区分点の範囲を表したものである (図 1
参照).
このとき,第 1 四分位点 Q1 および第 3 四分位点 Q3 の位置 (データを小さい順に並べたとき
の番号) をそれぞれ,t1 および t3 とするとき,は,以下の式で与えられる:
t1 = 1 − 0.25 + 0.25 × n
t3 = 1 − 0.75 + 0.75 × n
で与えられる.標本サイズと分位点の番号の例を以下に示す.
図 1: 中央値の説明
n
第 1 四分位点 t1
中央値 t2
第 3 四分位点 t3
5
2.00
3.00
4.00
6
2.25
3.50
4.75
7
2.50
4.00
5.50
8
2.75
4.50
6.25
9
3.00
5.00
7.00
10
3.25
5.50
7.75
11
3.50
6.00
8.50
12
3.75
6.50
9.25
13
4.00
7.00
10.00
14
4.25
7.50
10.75
15
4.50
8.00
11.50
ここで問題なのは,0.25 あるいは 0.75 といった小数点以下である.t = A.B となっていたと
する.ここに,A は整数であり,B は小数点以下の数字である.このとき,分位点は
Q = (1 − B) × x(A) + B × x(A+1)
で与えられる.ここに,x(i) , i = 1, 2, . . . , n は,データ xi , i = 1, 2, . . . , n を小さい順に並べ替え
たものである.
例えば,n = 10 の場合を取り上げる.このとき,第 1 四分位点 Q1 の位置 t1 は,t1 = 3.25 で
あり,第 3 四分位点 Q3 の位置 t3 は,9.75 である.この場合には,
Q1 = x(3) + 0.25 × (x(4) − x(3) ),
Q3 = x(9) + 0.75 × (x(10) − x(9) )
となる.
そして,四分位範囲 IQR は,
IQR = Q3 − Q1
である.
2.3
標準化 (基準化)
次の公式
zi =
xi − x¯
観測値 − 平均値
=
s
標準偏差
の作業を標準化という.標準化後の値 zi での平均値は 0 となり,標準偏差は 1 となる.
練習問題
問 1: 下表は,学生 20 名の昨日の睡眠時間 (分) を調査した結果である.以降の問いに答えな
さい.
睡眠時間
531.6 551.5
305.7 572.4
256.2
487.9
692.6
571.5
428.2
290.6
400.0
627.4
333.6
303.4
536.9
536.6
358.9
311.5
322.9
626.2
1-1 平均値を計算しなさい.
1-2 分散および標準偏差を計算しなさい.
1-3 中央値を計算しなさい.
1-4 四分位点範囲を計算しなさい.
問 2: 以下の問題において,括弧内の正しい文章に ◦ をつけなさい.
2-1 中央値を位置の測度として用いる場合にバラツキを表す測度として正しいものを選択し
なさい:(分散あるいは標準偏差・四分位点範囲あるいは範囲)
2-2 外れ値の影響を受けない位置の測度はどちらか:
(平均値・中央値)
2-3 個体の値を標準化したとき,その数字が負値になった.このときの正しい解釈を選びなさ
い:
(平均より小さい値・中央値より小さい値)
問 3: A さんは線形代数と統計学を受講している.定期試験の結果,A さんの線形代数の点数は
72 点であり,統計学の点数は 63 点であった.線形代数の平均値は 68 点,標準偏差は 10
点であり,統計学の平均点は 61 点,標準偏差は 15 点だったとするとき,以下の問いに答
えなさい.
3-1 A さんの線形代数と統計学の授業の点数を標準化しなさい.
3-2 A さんは線形代数と統計学のどちらが優秀な成績を収めたと考えてよいか.
回答
1-1:x¯ =
9045.6
20
= 452.28
1-2:分散の手計算には次のような表を作るとわかりやすい.
x
x−x
¯
(x − x
¯)2
531.6
79.32
6291.66
551.5
99.22
9844.61
256.2
-196.08
38447.37
692.6
240.32
57753.70
428.2
-24.08
579.85
400.0
-52.28
2733.20
333.6
-118.68
14084.94
536.9
84.62
7160.54
358.9
-93.38
8719.82
322.9
-129.38
16739.18
305.7
-146.58
21485.70
572.4
120.12
14428.81
487.9
35.62
1268.78
571.5
119.22
14213.41
290.6
-161.68
26140.42
627.4
175.12
30667.01
303.4
-148.88
22165.25
536.6
84.32
7109.86
311.5
-140.78
19819.01
626.2
173.92
30248.17
よって,分散は s2 = 349901.31
= 17495.066 である.
20
√
また,標準偏差は s = 17495.066 = 132.27 である.
1-3:先ず,データを小さい順に並べ替える,
番号
x
1
256.2
2
290.6
3
303.4
4
305.7
5
311.5
6
322.9
7
333.6
8
358.9
9
400.0
10
428.2
11
487.9
12
531.6
13
536.6
14
536.9
15
551.5
16
571.5
17
572.4
18
626.2
19
627.4
20
692.6
中央値がある番号を計算すると,t = 1 − 0.5 + 0.5 × 20 = 10.5 番目になる.よって,中央値は,
10 番目と 11 番目の値の真ん中,すなわち med = (428.2 + 487.9)/2 = 458.05 である.
1-4:第 1 四分位点の位置は t = 1 − 0.25 + 0.25 × 20 = 5.75 番目であり,第 3 四分位点の位置
は t = 1 − 0.75 + 0.75 × 20 = 15.25 番目である.したがって,第 1 四分位点 Q1 と第 3 四分位点
Q3 は
Q1 = 311.5 + 0.75 × (322.9 − 311.5) = 320.05,
Q3 = 551.5 + 0.25 × (571.5 − 551.5) = 556.50
よって,四分位範囲は IQR = Q3 − Q1 = 236.45 である.
2-1:四分位点範囲あるいは範囲
2-2:中央値
2-3:平均より小さい値 3-1 標準化の公式は z =
z線形代数 =
である.
3-2:線形代数のほうが優秀
72 − 68
= 0.4,
10
x−¯
x
s
なので
z統計学 =
63 − 61
= 0.133
15