分散と標準偏差 経営統計演習の補足資料 2015年10月19日 金沢学院大学経営情報学部 藤本祥二 量的データの分析(前期復習) • データ全体の様子(分布)を知ることが目的 • 度数分布,ヒストグラムを描き形状を見る 1.単峰性,2.ピークの位置と散らばり具合, 3.左右対称性,4.外れ値の存在 • 数値で分布を要約する 基本統計量:分布の特徴を表す数値 – 代表値(分布の中心を表す数値) – 散布度(分布のばらつき具合を表す数値) 基本統計量 • 基本統計量:分布の特徴を表す数値 • 代表値(分布の中心を表す数値) – 平均値(mean, average) – 中央値(median) – 最頻値(mode) 前期にやった 3級教科書では5章 • 散布度(分布のばらつき具合を表す数値) – – – – 分散(偏差平方平均,variance) 標準偏差(standard deviation) 範囲(レンジ,range) 四分位範囲(inter quartile range, IQR) 今回の話 3級教科書の7章 前期にやった 3級教科書では6章 • その他の分布の形を表す数値 – 歪度(ひずみ度,わい度,skewness) – 尖度(とがり度,せん度,kurtosis) 統計検定2級以降 散布度 • 平均とデータの差である偏差(𝑑𝑖 = 𝑥𝑖 − 𝑥) から計算した散布度 – 分散 – 標準偏差 – 平均偏差 • データの個数の割合から計算した散布度 (中央値の拡張) – 範囲(レンジ) – 四分位範囲 平均値(算術平均)の復習 エックスバー • 𝑛個のデータ 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 の平均を 𝑥 の記号で表す (平均を𝑚や𝜇の文字を用いて表してる本も多い) 1 𝑥 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑛 データ数𝑛で 等分する 合計を • 和の記号Σを用いた書き方 1 𝑥= 𝑛 𝑛 𝑥𝑖 𝑖=1 平均のイメージ • 数直線の釣り合いの位置 例)𝑛 = 4, 𝑥1 = 5, 𝑥2 = 2, 𝑥3 = 8, 𝑥4 = 9 𝑥= 0 1 1 24 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 5 + 2 + 7 + 9 = =6 4 4 4 𝑥2 2 𝑥1 5 𝑥 6 𝑥3 8 𝑥4 9 実際に𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 の位置に同じ重さの重りを置いて,𝑥 の位置を支点にすると, てこの原理で支点の左右にかかる力による釣り合いがとれる 偏差 データの値-平均値 𝑑𝑖 = 𝑥𝑖 − 𝑥 を「偏差(deviation)」という 𝑑4 𝑑2 0 𝑥2 2 𝑑3 𝑑1 𝑥1 5 各偏差は中心(平均)からの 広がりを表してるので, 全偏差の平均がバラツキの指標 になりそう. そのまま平均するのはダメ(理由⇒) 𝑥3 8 𝑥 6 4 𝑥4 9 前期にやった釣り合いの話 𝑑1 = 𝑥1 − 𝑥 = 5 − 6 = −1 𝑑2 = 𝑥2 − 𝑥 = 2 − 6 = −4 𝑑3 = 𝑥3 − 𝑥 = 8 − 6 = 2 𝑑4 = 𝑥4 − 𝑥 = 9 − 6 = 3 𝑑𝑖 = 𝑑1 + 𝑑2 + 𝑑3 + 𝑑4 = 0 𝑖=1 偏差の合計は0になっちゃう どんなデータでも偏差の合計は0 • 𝑛 = 4のとき 両辺4倍すると 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 4𝑥 1 𝑥 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 4 • 偏差 𝑥𝑖 − 𝑥 の合計は必ず0 𝑥1 − 𝑥 + 𝑥2 − 𝑥 + 𝑥3 − 𝑥 + 𝑥4 − 𝑥 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 − 4𝑥 足し算の順番変える = 4𝑥 − 4𝑥 = 0 𝑥𝑖 の中にどんな数値が入ってても成り立つ 偏差の合計(一般の場合) • 一般の𝑛の時 1 𝑥= 𝑛 𝑛 両辺𝑛倍すると 𝑛 𝑥𝑖 𝑥𝑖 = 𝑛𝑥 𝑖=1 𝑖=1 • どんなデータでも偏差の合計は必ず0になる 𝑛 和の記号Σの公式 𝑛 𝑥𝑖 − 𝑥 = 𝑖=1 𝑛 𝑥𝑖 − 𝑥 𝑖=1 = 𝑛𝑥 − 𝑥 𝑛 = 0 1=𝑛 1 𝑖=1 𝑛 𝑖=1 散布度を表す指標(教科書P74) • 偏差の平均 1 𝑛 𝑛 𝑥𝑖 − 𝑥 = 0 𝑖=1 • 偏差の絶対値の平均(平均偏差という) 1 𝑛 𝑛 𝑥𝑖 − 𝑥 𝑖=1 どのようなデータでも偏差を足しあげると +の偏差と-の偏差が相殺されて 必ず0になるため 散布度を表す指標に使えない。 絶対値を取って全て正の量にしてから 足しあげる。 しかし平均偏差はあまり使われない。 (データの値によって場合分け が必要で代数学的には扱い難い) • 偏差の2乗の平均(分散という) 1 𝑛 𝑛 𝑥𝑖 − 𝑥 𝑖=1 2 2乗することで全て正の量にしてから 足しあげる。 分散は散布度を表すのに良く使われる。 (代数学的な扱いが容易) 分散と標準偏差 • 分散(variance) 「偏差の2乗の平均」のこと データのバラツキ具合を表す良く使う量なので「分散」という名前がついてる 1 2 𝑠 = 𝑛 𝑛 𝑥𝑖 − 𝑥 2 𝑖=1 • 標準偏差(standard deviation) 「分散のルート」のこと データ全体の偏差にある種の標準化を行って一つの量で表現したもの 𝑠= 𝑠2 = 1 𝑛 𝑛 𝑥𝑖 − 𝑥 𝑖=1 2 ギリシャ文字𝜎で 標準偏差を表す 本も多い 分散は偏差を2乗した量の平均なので,単位は元データの量の単位の2乗になってる 元データの単位と同じ単位にするためにルート(平方根)を取る 表を使った計算例 4個のデータ 5, 2, 8, 9 の例 データ 番号𝒊 データ 𝒙𝒊 偏差 𝒙𝒊 − 𝒙 偏差の絶対値 𝒙𝒊 − 𝒙 1 𝑥1 = 5 𝑥1 − 𝑥 = −1 𝑥1 − 𝑥 = 1 𝑥1 − 𝑥 2 𝑥2 = 2 𝑥2 − 𝑥 = −4 𝑥2 − 𝑥 = 4 𝑥2 − 𝑥 3 𝑥3 = 8 𝑥3 − 𝑥 = 2 𝑥3 − 𝑥 = 2 𝑥3 − 𝑥 2 =4 4 𝑥4 = 9 𝑥4 − 𝑥 = 3 𝑥4 − 𝑥 = 3 𝑥4 − 𝑥 2 =9 4 4 𝑖=1 4 平均 4 𝑥𝑖 = 24 合計 1 4 𝑖=1 𝑥𝑖 − 𝑥 = 0 𝑖=1 4 𝑥𝑖 = 6 ↑ データの平均 𝑥=6 1 4 偏差の2乗 𝒙𝒊 − 𝒙 𝟐 𝑖=1 𝑥𝑖 − 𝑥 = 10 ↑ 偏差の平均 0 1 4 = 16 𝑥𝑖 − 𝑥 2 = 30 𝑖=1 4 𝑥𝑖 − 𝑥 = 2.5 𝑖=1 2 =1 4 𝑖=1 4 𝑥𝑖 − 𝑥 = 0 2 ↑ 平均偏差 2.5 1 4 𝑥𝑖 − 𝑥 2 = 7.5 𝑖=1 ↑ 分散(偏差2乗の平均) 𝑠 2 = 7.5 標準偏差 𝑠 = 7.5 ≒ 2.7386 分散と標準偏差のイメージ −𝑠 偏差は − 4 0 𝑥2 2 −1 𝑥1 5 𝑠 ≒ 2.7386 3 2 𝑥=6 𝑥3 8 𝑥4 9 1 4 偏差2乗(面積) −4 2 = 16 9 偏差2乗(面積)の平均が分散 1 30 2 𝑠 = 16 + 1 + 4 + 9 = = 7.5 4 4 前ページの続き 分散(面積) 𝑠 2 = 7.5 標準偏差(一辺) 𝑠 = 7.5 ≒ 2.7386 • 分散の単位は元のデータの単位の2乗 (元データがcmの単位ならcm2の単位) (元データがkgの単位ならkg2の単位) • 標準偏差は平方根を取って元データの 単位に戻したもの • 分散や標準偏差は偏差を元に計算した バラツキを表す指標(散布度) 分散公式 • 分散の定義は偏差2乗の平均 𝑛 1 𝑠2 = 𝑥𝑖 − 𝑥 2 𝑛 𝑖=1 • 右辺は次のように変形できる データの2乗の平均を表す記号 𝑛 ↓ 1 𝑠2 = 𝑥𝑖2 − 𝑥 2 = 𝑥 2 − 𝑥 2 𝑛 ↑ 𝑖=1 データの平均の2乗 ↑ データの2乗の平均 分散 = 偏差の2乗の平均 = データの2乗の平均 - データの平均の2乗 分散公式の証明 • 𝑛 = 3の時 1 𝑥 = 𝑥1 + 𝑥2 + 𝑥3 3 1 2 𝑠 = 𝑥1 − 𝑥 2 + 𝑥2 − 𝑥 2 + 𝑥3 − 𝑥 2 3 1 = 𝑥12 − 2𝑥𝑥1 + 𝑥 2 + 𝑥22 − 2𝑥 𝑥2 + 𝑥 2 3 + 𝑥32 − 2𝑥𝑥3 + 𝑥 2 公式を使う 𝑎−𝑏 2 = 𝑎2 − 2𝑎𝑏 + 𝑏2 前ページの続き 1 2 = 𝑥1 + 𝑥22 + 𝑥32 − 2𝑥 𝑥1 − 2𝑥 𝑥2 − 2𝑥 𝑥3 + 𝑥 2 + 𝑥 2 + 𝑥 2 3 1 = 3 𝑥12 + 𝑥22 + 𝑥32 − 2𝑥 𝑥1 + 𝑥2 + 𝑥3 + 3𝑥 2 1 2 1 2 2 = 𝑥1 + 𝑥2 + 𝑥3 − 2𝑥 ∙ 𝑥1 + 𝑥2 + 𝑥3 + 𝑥 2 3 3 平均𝑥 1 2 1 2 2 2 = 𝑥1 + 𝑥2 + 𝑥3 − 𝑥 = 3 3 3 𝑥𝑖2 − 𝑥 2 𝑖=1 分散公式の証明 • 一般の𝑛の時 𝑥= 1 𝑛 𝑠2 = 1 = 𝑛 1 = 𝑛 = 1 𝑛 1 = 𝑛 𝑛 𝑥𝑖 𝑖=1 𝑛 1 𝑛 𝑛 𝑖=1 𝑛 𝑖=1 𝑛 𝑥𝑖 − 𝑥 𝑖=1 1 𝑥𝑖2 + 𝑛 2 𝑛 𝑖=1 1 𝑥𝑖2 − 2𝑥 ∙ 𝑛 = 1 𝑛 𝑛 𝑥𝑖2 − 2𝑥 𝑥𝑖 + 𝑥 2 𝑖=1 1 −2𝑥 𝑥𝑖 + 𝑛 𝑛 𝑖=1 𝑥𝑖2 − 𝑥 2 𝑖=1 1 ∙𝑛 𝑛 前回の公式1 和の記号の分配則 𝑥2 𝑖=1 1 𝑥𝑖 + 𝑥 2 ∙ 𝑛 𝑥𝑖2 − 2𝑥 ∙ 𝑥 + 𝑥 2 ∙ 𝑖=1 𝑛 𝑛 𝑛 1 𝑖=1 前回の公式2 定数のすり抜け 分散公式を使った計算例 4個のデータ 5, 2, 8, 9 の(先と同じ)例 データ 番号𝒊 データ 𝒙𝒊 データの2乗 𝒙𝟐𝒊 1 𝑥1 = 5 𝑥12 = 25 2 𝑥2 = 2 𝑥22 = 4 3 𝑥3 = 8 𝑥32 = 64 4 𝑥4 = 9 𝑥42 = 81 4 4 𝑖=1 4 平均 𝑥𝑖2 = 174 𝑥𝑖 = 24 合計 1 4 𝑖=1 4 𝑥𝑖 = 6 𝑖=1 ↑ データの平均 𝑥=6 1 4 𝑥𝑖2 = 43.5 𝑖=1 ↑ データの2乗の平均 𝑥 2 = 43.5 分散公式を使うと 𝑠2 = 𝑥2 − 𝑥2 = 43.5 − 36 = 7.5 当然だが先ほどの分散の計算と 同じ結果
© Copyright 2024 ExpyDoc