1章 データの整理 1.1 データの代表値 ■母集団と標本 母集団(population) 知りたい全体 情報の流れ 記号:{ 標本(sample) 入手した情報 = データ x1, x2, …, xn } 統計的推測 (帰納論理:特殊 ⇒ 一般) 各種の代表値 • 観測個数 n (または 標本の大きさ、標本サイズ、 Sample Size) • n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) ■データの中心を示す代表値 例: { x1, …, x5 } = { 7, 4, 3, 6, 1 } 1 2 3 4 5 6 7 7 4 3 6 1 21 x 4.2 5 5 標本平均値(Sample Mean) Σ = Sum x1 x2 xn 1 n x xi n n i 1 順序標本 x[1], x[2], …, x[n] 観測値を昇順(小→大)に並べ替えた結果 最小値 = x[1] 最大値 = x[n] 例: { x[1], …, x[5] } = { 1, 3, 4, 6, 7 } 3観測値 ← → 3観測値 xmed x 51 x3 4 1 2 3 4 5 6 7 2 中央値(Median) (n が奇数の時) xmed x n1 2 例: { x[1], …, x[4] } = { 1, 3, 4, 6 } →半数 半数← 1 2 x med 3 4 5 6 1 1 ( x2 x3 ) (3 4) 3.5 2 2 中央値(Median) (n が偶数の時) xmed 1 ( x n x n ) 2 2 2 1 最頻値(Mode) 同じ値の個数(度数、頻度)が最も多い値 例: { x[1], …, x[9] } = { 1, 3, 3, 4, 4, 4, 6, 6, 7 } 最多 1 2 3 4 5 6 7 xmode 4 3Ms Mean Median Mode ■データの広がりを示す代表値 x2 図1 45°線 10 母集団平均 C = (7, 7) 8 6 標本平均 M = (4, 4) 4 データ D = (6, 2) 2 ||DM|| 標本標準偏差×√(n – 1) x1 0 0 2 4 6 8 10 標本 分散(Sample Variance) 1 2 xi 標本平均値 S n 1 i 1 n 2 標本 標準偏差(Sample Standard Deviation) S≧0 例: { x1, x2 } = { 6, 2 } • 標本 平均 値 • 標本 分散 x = ( 6 + 2 ) / 2 = 4、 S 2 = [ ( 6 – 4 )2 + ( 2 – 4 )2 ] / ( 2 – 1 ) =4+4=8 • 標本 標準偏差 S 8 2 2 ≒ 2.8 ■偏差に関する基本公式 { x[1], …, x[6] }= { 1, 2, 2, 3, 5, 5 } 重心=標本平均値=3 x n a) i 1 代数的証明 i 標本平均値 0 n n x i 平均 x i 平均 i 1 i 1 i 1 n n n n x i n 平均 x i x i 0 i 1 i 1 i 1 x2 図1 10 45度線上の 任意の点 C = (7, 7) 任意の実数 c について n b) x i 1 c 8 2 i 6 x i 標本平均値 n 標本平均 M = (4, 4) 2 i 1 n標本平均値 c 2 45°線 4 データ D = (6, 2) 2 ||DM|| 標本標準偏差×√(n – 1) 0 0 c = 0 と置くと x n c) i 1 4 6 8 10 標本平均値 xi n標本平均値 2 i 2 n i 1 2 x1 2 チェビシェフ不等式(平均・標準偏差とデータ割合) 任意の実数 k > 1 について データの割合{ 標本平均値 ± k×標本標準偏差 の 範囲外 } ≦1/k2 -3S -2S -S S 2S 3S (k = 2) 平均 平均から 2 標準偏差以上 離れたデータの割合 ≦ 1 / 2 2 = 1 / 4 = 25% (k = 3) 平均から 3 標準偏差以上 離れたデータの割合 ≦ 1 / 3 2 = 1 / 9 ≒ 11% ■安定した尺度 中央値=3 重心=標本平均値=3 中央値=3 異常値? 重心=標本平均値=4 データ: {x[1], …, x[7]}= { 1, 2, 2, 3, 4, 4, 5 } データ: {x[1], …, x[7]}= { 1, 2, 2, 3, 4, 4, 12 } ■四分位点(四分位数、Quartile) • 最小値 x[1] から最大値 x[n] までのデータを、 個数において 4 等分する 3 点。 第3四分位点 = 7 第1四分位点 = 2.5↓ ↓ { x[1], …, x[7] } = {1, 2, 3, 5, 6, 8, 9} ↑ 最小値 ↑ ↑ 中央値 最大値 || 第2四分位点 = 5 • 5分位点、百分位点、etc. • 範囲(Range) = 最大値 – 最小値 (上の例では 範囲 = 9 – 1 = 8) • 四分位範囲(Inter-Quartile Range) = 第3四分位点 - 第1四分位点 (上の例では 四分位範囲 = 7 – 2.5 = 4.5) 分位点の一般公式 (テキストの定義とは異なる。Excel-Percentileと同じ) α 100% 75% 50% 25% 0% 例(n = 7) :データ { x[1], …, x[7] } = {1, 2, 3, 5, 6, 8, 9} 図2 α = 0.25 (=第1四分位点) (n – 1) α + 1 = (7 – 1) 0.25 + 1 = 2.5 番目 x0.25 = x[2] + 0.5(x[3] – x[2]) = 2 + 0.5(3 – 2) = 2.5 α = 0.5(=中央値 = 第2四分位点) (n – 1) α + 1 = (7 – 1) 0.5 + 1 = 4.0 番目 xα x = x + 0.0(x – x ) 不要 0.5 [4] [5] [4] 1 2 3 4 5 6 7 8 9 = 5 + 0.0(6 – 5) = 5 縦軸の値は観測値が1つ右に進 む毎に 1 / (n – 1) づつ上昇
© Copyright 2025 ExpyDoc