1.1 データの代表値 - Econom01 Web Site, Sophia

1章 データの整理
1.1 データの代表値
■母集団と標本
母集団(population)
知りたい全体
情報の流れ
記号:{
標本(sample)
入手した情報
= データ
x1, x2, …, xn }
統計的推測
(帰納論理:特殊 ⇒ 一般)
各種の代表値
• 観測個数 n (または 標本の大きさ、標本サイズ、 Sample Size)
• n が母集団サイズに等しい時 … 全標本 または 全数調査 (census)
■データの中心を示す代表値
例: { x1, …, x5 } = { 7, 4, 3, 6, 1 }
1
2
3
4
5
6
7
7  4  3  6  1 21
x

 4.2
5
5
標本平均値(Sample Mean)
Σ = Sum
x1  x2    xn 1 n
x
  xi
n
n i 1
順序標本
x[1], x[2], …, x[n]
観測値を昇順(小→大)に並べ替えた結果
最小値 = x[1]
最大値 = x[n]
例: { x[1], …, x[5] } = { 1, 3, 4, 6, 7 }
3観測値 ←
→ 3観測値
xmed  x 51   x3  4
1
2
3
4
5
6
7
 2 


中央値(Median) (n が奇数の時)
xmed  x n1 
 2 


例: { x[1], …, x[4] } = { 1, 3, 4, 6 }
→半数
半数←
1
2
x med
3
4
5
6
1
1
 ( x2   x3  )  (3  4)  3.5
2
2
中央値(Median) (n が偶数の時)
xmed
1
 ( x n   x n  )
2  2 
 2  1


最頻値(Mode)
同じ値の個数(度数、頻度)が最も多い値
例: { x[1], …, x[9] } = { 1, 3, 3, 4, 4, 4, 6, 6, 7 }
最多
1
2
3
4
5
6
7
xmode  4
3Ms
Mean
Median Mode
■データの広がりを示す代表値
x2
図1
45°線
10
母集団平均
C = (7, 7)
8
6
標本平均
M = (4, 4)
4
データ
D = (6, 2)
2
||DM||
標本標準偏差×√(n – 1)
x1
0
0
2
4
6
8
10
標本 分散(Sample Variance)
1
2
xi  標本平均値
S 

n  1 i 1
n
2
標本 標準偏差(Sample Standard Deviation)
S≧0
例: { x1, x2 } = { 6, 2 }
• 標本 平均 値
• 標本 分散
x
= ( 6 + 2 ) / 2 = 4、
S 2 = [ ( 6 – 4 )2 + ( 2 – 4 )2 ] / ( 2 – 1 )
=4+4=8
• 標本 標準偏差 S  8  2 2 ≒ 2.8
■偏差に関する基本公式
{ x[1], …, x[6] }= { 1, 2, 2, 3, 5, 5 }
重心=標本平均値=3
 x
n
a)
i 1
代数的証明
i
 標本平均値  0
 n
  n




 x i  平均    x i     平均
i 1
 i 1   i 1

n
 n

 n
  n






   x i   n  平均    x i     x i   0
 i 1 
 i 1   i 1 
x2
図1
10
45度線上の
任意の点
C = (7, 7)
任意の実数 c について
n
b)
 x
i 1
 c
8
2
i
6
   x i  標本平均値
n
標本平均
M = (4, 4)
2
i 1
 n標本平均値  c 
2
45°線
4
データ
D = (6, 2)
2
||DM||
標本標準偏差×√(n – 1)
0
0
c = 0 と置くと
 x
n
c)
i 1
4
6
8
10
 標本平均値   xi  n標本平均値
2
i
2
n
i 1
2
x1
2
チェビシェフ不等式(平均・標準偏差とデータ割合)
任意の実数
k > 1 について
データの割合{ 標本平均値 ± k×標本標準偏差 の
範囲外 }
≦1/k2
-3S -2S -S
S 2S 3S
(k = 2)
平均
平均から 2 標準偏差以上 離れたデータの割合
≦ 1 / 2 2 = 1 / 4 = 25%
(k = 3)
平均から 3 標準偏差以上 離れたデータの割合
≦ 1 / 3 2 = 1 / 9 ≒ 11%
■安定した尺度
中央値=3
重心=標本平均値=3
中央値=3
異常値?
重心=標本平均値=4
データ:
{x[1], …, x[7]}= { 1, 2, 2, 3, 4, 4, 5 }
データ:
{x[1], …, x[7]}= { 1, 2, 2, 3, 4, 4, 12 }
■四分位点(四分位数、Quartile)
• 最小値 x[1] から最大値 x[n] までのデータを、
個数において 4 等分する 3 点。
第3四分位点 = 7
第1四分位点 = 2.5↓
↓
{ x[1], …, x[7] } = {1, 2, 3, 5, 6, 8, 9}
↑
最小値
↑
↑
中央値
最大値
||
第2四分位点 = 5
• 5分位点、百分位点、etc.
• 範囲(Range)
= 最大値 – 最小値 (上の例では 範囲 = 9 – 1 = 8)
• 四分位範囲(Inter-Quartile Range)
= 第3四分位点 - 第1四分位点
(上の例では 四分位範囲 = 7 – 2.5 = 4.5)
分位点の一般公式
(テキストの定義とは異なる。Excel-Percentileと同じ)
α
100%
75%
50%
25%
0%
例(n = 7) :データ { x[1], …, x[7] }
= {1, 2, 3, 5, 6, 8, 9}
図2
α = 0.25 (=第1四分位点)
(n – 1) α + 1
= (7 – 1) 0.25 + 1 = 2.5 番目
x0.25 = x[2] + 0.5(x[3] – x[2])
= 2 + 0.5(3 – 2) = 2.5
α = 0.5(=中央値 = 第2四分位点)
(n – 1) α + 1
= (7 – 1) 0.5 + 1 = 4.0 番目
xα x = x + 0.0(x – x ) 不要
0.5
[4]
[5]
[4]
1 2 3 4 5 6 7 8 9
= 5 + 0.0(6 – 5) = 5
縦軸の値は観測値が1つ右に進
む毎に 1 / (n – 1) づつ上昇