1章 データの整理
1.1 データの代表値
■母集団と標本
母集団(population)
知りたい全体
情報の流れ
記号:{
標本(sample)
入手した情報
= データ
x1, x2, …, xn }
統計的推測
(帰納論理:特殊 ⇒ 一般)
各種の代表値
• 観測個数 n (または 標本の大きさ、標本サイズ、 Sample Size)
• n が母集団サイズに等しい時 … 全標本 または 全数調査 (census)
■データの中心を示す代表値
例: { x1, …, x5 } = { 7, 4, 3, 6, 1 }
1
2
3
4
5
6
7
7 4 3 6 1 21
x
4.2
5
5
標本平均値(Sample Mean)
Σ = Sum
x1 x2 xn 1 n
x
xi
n
n i 1
順序標本
x[1], x[2], …, x[n]
観測値を昇順(小→大)に並べ替えた結果
最小値 = x[1]
最大値 = x[n]
例: { x[1], …, x[5] } = { 1, 3, 4, 6, 7 }
3観測値 ←
→ 3観測値
xmed x 51 x3 4
1
2
3
4
5
6
7
2
中央値(Median) (n が奇数の時)
xmed x n1
2
例: { x[1], …, x[4] } = { 1, 3, 4, 6 }
→半数
半数←
1
2
x med
3
4
5
6
1
1
( x2 x3 ) (3 4) 3.5
2
2
中央値(Median) (n が偶数の時)
xmed
1
( x n x n )
2 2
2 1
最頻値(Mode)
同じ値の個数(度数、頻度)が最も多い値
例: { x[1], …, x[9] } = { 1, 3, 3, 4, 4, 4, 6, 6, 7 }
最多
1
2
3
4
5
6
7
xmode 4
3Ms
Mean
Median Mode
■データの広がりを示す代表値
x2
図1
45°線
10
母集団平均
C = (7, 7)
8
6
標本平均
M = (4, 4)
4
データ
D = (6, 2)
2
||DM||
標本標準偏差×√(n – 1)
x1
0
0
2
4
6
8
10
標本 分散(Sample Variance)
1
2
xi 標本平均値
S
n 1 i 1
n
2
標本 標準偏差(Sample Standard Deviation)
S≧0
例: { x1, x2 } = { 6, 2 }
• 標本 平均 値
• 標本 分散
x
= ( 6 + 2 ) / 2 = 4、
S 2 = [ ( 6 – 4 )2 + ( 2 – 4 )2 ] / ( 2 – 1 )
=4+4=8
• 標本 標準偏差 S 8 2 2 ≒ 2.8
■偏差に関する基本公式
{ x[1], …, x[6] }= { 1, 2, 2, 3, 5, 5 }
重心=標本平均値=3
x
n
a)
i 1
代数的証明
i
標本平均値 0
n
n
x i 平均 x i 平均
i 1
i 1 i 1
n
n
n
n
x i n 平均 x i x i 0
i 1
i 1 i 1
x2
図1
10
45度線上の
任意の点
C = (7, 7)
任意の実数 c について
n
b)
x
i 1
c
8
2
i
6
x i 標本平均値
n
標本平均
M = (4, 4)
2
i 1
n標本平均値 c
2
45°線
4
データ
D = (6, 2)
2
||DM||
標本標準偏差×√(n – 1)
0
0
c = 0 と置くと
x
n
c)
i 1
4
6
8
10
標本平均値 xi n標本平均値
2
i
2
n
i 1
2
x1
2
チェビシェフ不等式(平均・標準偏差とデータ割合)
任意の実数
k > 1 について
データの割合{ 標本平均値 ± k×標本標準偏差 の
範囲外 }
≦1/k2
-3S -2S -S
S 2S 3S
(k = 2)
平均
平均から 2 標準偏差以上 離れたデータの割合
≦ 1 / 2 2 = 1 / 4 = 25%
(k = 3)
平均から 3 標準偏差以上 離れたデータの割合
≦ 1 / 3 2 = 1 / 9 ≒ 11%
■安定した尺度
中央値=3
重心=標本平均値=3
中央値=3
異常値?
重心=標本平均値=4
データ:
{x[1], …, x[7]}= { 1, 2, 2, 3, 4, 4, 5 }
データ:
{x[1], …, x[7]}= { 1, 2, 2, 3, 4, 4, 12 }
■四分位点(四分位数、Quartile)
• 最小値 x[1] から最大値 x[n] までのデータを、
個数において 4 等分する 3 点。
第3四分位点 = 7
第1四分位点 = 2.5↓
↓
{ x[1], …, x[7] } = {1, 2, 3, 5, 6, 8, 9}
↑
最小値
↑
↑
中央値
最大値
||
第2四分位点 = 5
• 5分位点、百分位点、etc.
• 範囲(Range)
= 最大値 – 最小値 (上の例では 範囲 = 9 – 1 = 8)
• 四分位範囲(Inter-Quartile Range)
= 第3四分位点 - 第1四分位点
(上の例では 四分位範囲 = 7 – 2.5 = 4.5)
分位点の一般公式
(テキストの定義とは異なる。Excel-Percentileと同じ)
α
100%
75%
50%
25%
0%
例(n = 7) :データ { x[1], …, x[7] }
= {1, 2, 3, 5, 6, 8, 9}
図2
α = 0.25 (=第1四分位点)
(n – 1) α + 1
= (7 – 1) 0.25 + 1 = 2.5 番目
x0.25 = x[2] + 0.5(x[3] – x[2])
= 2 + 0.5(3 – 2) = 2.5
α = 0.5(=中央値 = 第2四分位点)
(n – 1) α + 1
= (7 – 1) 0.5 + 1 = 4.0 番目
xα x = x + 0.0(x – x ) 不要
0.5
[4]
[5]
[4]
1 2 3 4 5 6 7 8 9
= 5 + 0.0(6 – 5) = 5
縦軸の値は観測値が1つ右に進
む毎に 1 / (n – 1) づつ上昇
© Copyright 2026 ExpyDoc