統計学 第7回 基本統計量: 平均・中央値、分散、標準偏差など 今日の内容 基本統計量 分布の位置を知る 平均、中央値、モード 分布の広がりを評価する 分散、標準偏差 統計学入門(1)第7回 2 分布(Distribution) データのバラツキの形状 , もしくは、 様子を数量的に把握したもの データが集中している範囲、バラツキの大きさ、 データの値や範囲を指定した場合、 そこに全体の 何%のデータが含まれるか・・・. を教えてくれるもの 統計学入門(1)第7回 3 分布を知るためのグラフ ヒストグラム (人) 30 20 10 箱ひげ図 (6月に説明予定) 0 50 55 60 65 70 75 80 85 90 95 100 統計学入門(1)第7回 4 分布をみる視点 中心は? どこ(どのような値)を中心に バラツキの程度(広さ)は? どの程度まで広がっているのか 統計学入門(1)第7回 5 分布の比較 形状の比較 中心は? どこ(どのような値)を中心に バラツキの程度(広さ)は? どの程度まで広がっているのか 統計学入門(1)第7回 6 基礎統計量(Basic statistics) データのバラツキの形状(分布)を数値で 表したもの(中心の位置、バラツキの幅) 平均値 ・ 中央値 ・ 最頻値 範囲 ・ 分散 ・ 標準偏差 四分位数 変動係数 ・ 四分位分散係数 歪度 ・ 尖度 ・・・etc. 統計学入門(1)第7回 7 分布の中心の位置 データの集中しているところ (分布の中心) 平均値 中央値(メディアン) 最頻値(モード) 統計学入門(1)第7回 8 分布の中心 データが集中している部分 分布の中心 統計学入門(1)第7回 9 平均(Mean) x (エックスバー) ケース 1 2 3 4 5 データの合計 x データ値 データの数 5 x1 x2 xn 7 n 3 5 7 3 37 8 60 例) x 37 5 5 8 12 統計学入門(1)第7回 10 中央値(Median) データを大きさの順に並べたときにちょうど 真ん中にくる値 3 5 7 8 38 ケース データ値 1 5 中央値 2 7 データが偶数個のときは、 3 3 3 4 38 5 8 5 7 中央値 統計学入門(1)第7回 8 ~x 5 7 6 2 11 最頻値(Mode) (人) 度数(その値をとるデータ数)が 最も大きいデータ値 20 100.00% (人) 30 15 80.00% 20 60.00% 10 40.00% 5 20.00% 0 10 0 50 55 60 65 70 75 80 85 90 95 100 .00% アジア アメリカ ヨーロッパ オーストラリア 成績 アフリカ 図3-1 パレート図(質的変数:海外旅行先) 最頻値 図3-2 ヒストグラム (量的変数) 最頻値 統計学入門(1)第7回 12 最頻値(Mode) 度数(その値をとるデータ数)が 最も大きいデータ値 注意: 量的データの場合は使用しない! 統計学入門(1)第7回 13 最頻値の利用事例 (マンションの販売価格) ■交通:JR横須賀線/東戸塚駅 徒歩10分 ■価格:4,400万円台〜7,000万円台 ■最多価格帯:4,800万円台 ■面積:70.85m²〜107.57m² ■間取り:2LDK+S〜4LDK 統計学入門(1)第7回 14 分布の中心の位置 データの集中しているところ (分布の中心) 平均値 中央値 最頻値 統計学入門(1)第7回 15 歪んだ分布の例(貯蓄の分布) 総務省統計局家計調査 「家 計 調 査 年 報 平成17年≪貯蓄・負債編≫」 平成17年 貯蓄・負債の概況 より引用 (中央値のこと) 平均値と中央値 分布が対称であれば、同じ値になる 中央値は頑健(外れ値の影響を受けにくい) 中央値 平均 統計学入門(1)第7回 17 累積相対度数と中央値 累積度数から累積の相対度数を求め、それを 結ぶと、分布曲線が描かれる 店舗A 0-200 200-400 400-600 600-1000 1000-1500 1500-2000 2000-3000 3000-5000 合計 0 28 36 32 40 35 25 30 40 266 累積度数 0 28 64 96 136 171 196 226 266 100% 0% 11% 24% 36% 51% 64% 74% 85% 100% 75% 50% 25% 0% 0 統計学入門(1)第7回 1000 2000 3000 4000 5000 18 累積相対度数と中央値 100% 75% 50% 25% 中央値 0% 0 1000 2000 3000 統計学入門(1)第7回 4000 5000 19 分布の幅の大きさ (Measures of dispersion) 分散 標準偏差 範囲 四分位範囲 データのバラツキの大きさ バラツキ小 バラツキが小さい バラツキ中 バラツキが 大きい バラツキ大 統計学入門(1)第7回 20 分散(Variance) 各データ値と平均との距離の2乗の合計を データ数(または、データ数ー1)で割った値 (各データと平均との距離の2乗の平均) ( x1 x ) ( x2 x ) ( xn x ) s n 1 n ( xi x ) 2 n i 1 1 n 2 2 標本分散 s ( xi x ) n 1 i 1 2 2 2 2 統計学入門(1)第7回 21 分散の計算式 1 n s ( xi x ) 2 n i 1 2 の意味 この長さの2乗が x1 x2 x 平均 ( x3 x ) 2 x3 x4 の長さの2乗を足し合わ 上の図の4本の n せたものが 分散は、これらの線の長さを測っている指標 統計学入門(1)第7回 2 ( x x ) i i 1 22 バラツキが大きいデータ : 平均から離れたデータが多い x1 x2 x x3 平均 x4 バラツキが小さいデータ : 平均の周りに固まっている x1 x2 x 長い線が多い バラツキが大きい 短い線が多い バラツキが小さい 平均 統計学入門(1)第7回 x3 x4 23 標準偏差(Standard deviation) (分散より標準偏差をよく使う!) s 分散の平方根(ルートをとった値) s 2 ( x1 x ) ( x2 x ) ( xn x ) n 2 2 2 1 n 2 ( x x ) i n i 1 標本標準偏差 s 1 n 2 ( x x ) i n 1 i 1 統計学入門(1)第7回 24 バラツキの指標の評価 基本的には相対評価 大きさを比較 大きいほどバラツキが大きい 絶対評価をすることはあまりない 統計学入門(1)第7回 25 標準偏差でバラツキの大きさを比較 球種 ストレート カーブ カットボール チェンジアップ スライダー フォーク 全投球 平均 標準偏差 投球数 146.6 2.84 1144 119.0 3.17 86 140.3 2.59 211 127.4 3.38 224 129.3 3.84 678 134.2 2.60 126 138.0 9.46 2469 統計学入門(1)第7回 26 ヒストグラムから読み取ろう! 平均の違いと標準偏差の違い スライダー 180 標準偏差 スライダーの場合:3.84 160 140 120 100 度数 80 60 40 20 0 球速 ストレート 400 標準偏差 ストレートの場合:2.84 350 300 250 200 度数 150 100 50 0 球速 統計学入門(1)第7回 27 標準偏差の大きさの目安 (分布が対称の場合) ストレート 400 350 300 250 200 度数 150 100 50 0 136 138 140 142 144 146 148 150 152 154 球速 平均のまわり、2倍の標準偏差の範囲に95%のデータが 統計学入門(1)第7回 28 練習問題1 それぞれのデータから、平均値、中央値を計算したところ次のような結果となった。 それぞれのヒストグラムに対応する計算結果はどれか。 (a)平均100, 中央値100 , (b) 平均100, 中央値70 , (c) 平均150, 中央値180 40 計算結果( 30 b 40 ) 20 20 10 10 0 50 100 150 200 40 計算結果( 30 a 20 10 0 50 100 150 200 計算結果( 30 0 ) 50 100 150 C 200 ) 練習問題2 次の3つのヒストグラムのデータについて、標準偏差を計算した。それぞれのヒスト グラムの標準偏差の値にもっとも近いと思われるものを(a)-(d)の中から選べ。 標準偏差 (a)10, ( b)25 , (c)75, (d)200 40 40 40 30 30 30 20 20 20 10 10 10 0 50 100 150 200 250 ( b ) 0 50 100 150 200 250 ( a ) 0 50 100 150 200 250 ( a )
© Copyright 2024 ExpyDoc