統計学入門(1) 第5回 量的データの分布を調べる --- ヒストグラム, その2 --- 今日の予定 ヒストグラム ヒストグラムを使って分布の比較を行う 作成方法と読み方 2つのグループのバラツキ具合を比較する 練習問題 統計学入門(1)第5回 2 データ分析の視点 全体のバラツキをみる! 層別して、グループ間の特徴を比較! 水準化(コード化)、層別 変数間の関係をみる! ヒストグラム・箱ヒゲ図、基礎統計量 多変量解析 時点変化をみる! 時系列分析法 統計学入門(1)第5回 3 分布(Distribution) データのバラツキの形状 , もしくは、 様子を数量的に把握したもの データが集中している範囲、バラツキの大きさ、 データの値や範囲を指定した場合、 そこに全体の 何%のデータが含まれるか・・・. を教えてくれるもの 統計学入門(1)第5回 4 分布 データの値や範囲を指定した場合、 そこに全体の何%のデータが含まれるか・・・ 値 範囲 ・・・ ・・・ 質的データの場合 量的データの場合 統計学入門(1)第5回 5 ヒストグラム(Histogram) 度数分布表(量的データ)をグラフにしたもの ( た だ し 、 区 間 が 等 間 隔 の 場 合 ) 縦 軸 は デ ー タ の 度 数 (人) 30 20 10 0 50 55 60 65 70 75 80 85 90 95 100 成績 横軸がデータの値 図3-2 ヒストグラム (量的変数) 重 要 : 縦軸は起こりやすさを示す 統計学入門(1)第5回 6 前回の問題の解答:練習問題1 問題1 次のような集計表が得られた。ヒストグラムを作成し、 それぞれ(a)-(d)の各点をおこりやすいと思われる順に並べ替えなさい。 範囲 0-100 100-200 200-300 300-400 400-500 度数 10 20 25 18 12 0 100 200 (a) 50, (b) 150, (c) 250 (d) 350 起こりやすい順: (c) , (b), (d), (a) 300 400 500 練習問題2 基準の区間幅を50とした場合 問題1 次のような集計表が得られた。ヒストグラムを作成し、 それぞれ(a)-(d)の各点をおこりやすいと思われる順に並べ替えなさい。 範囲 0-100 100-150 150-200 200-300 300-500 度数 22 20 25 30 32 高さ 11 20 25 15 8 0 100 (a) 100, (b) 180, (c) 250 (d) 400 200 300 400 起こりやすい順: (b) , (a), (c), (d) 注意:100は100以上の区間としたときの解答 500 分布のチェックポイント 単峰 か 多峰 か 多峰であれば、分類を! 対称 か 非対称 か 対称であれば、ほぼ正規分布 対称でない場合、変換を行うことも 外れ値 統計学入門(1)第5回 9 単峰性(Unimodal) データが集中している部分 (峰、山)が1つ 単峰で左右対称なヒストグラム 統計学入門(1)第5回 10 多峰性(Multimodal) データが集中している部分(峰、山)が 2つ以上 2峰性のヒストグラム 統計学入門(1)第5回 11 多峰性の分布の例(松坂投手の球速) 300 250 200 150 100 50 0 110 115 120 125 130 135 統計学入門(1)第5回 140 145 150 155 km/h 12 球種別にみると、 260 240 220 200 180 160 140 120 100 80 60 40 20 0 111 121 131 141 151 111 121 Breaking b all 260 240 220 200 180 160 140 120 100 80 60 40 20 0 111 121 131 Slid er 141 131 141 151 111 121 Cut Ball 151 111 121 131 141 131 141 151 Fast Ball 151 111 Chang e Up 統計学入門(1)第5回 121 131 141 151 Fork Ball 13 歪んだ分布(Skewed distribution) 右方向に裾をひく分布 右に歪んだ分布 左方向に裾をひく分布 左に歪んだ分布 統計学入門(1)第5回 14 歪んだ分布の例(貯蓄の分布) 総務省統計局家計調査 「家 計 調 査 年 報 平成17年≪貯蓄・負債編≫」 平成17年 貯蓄・負債の概況 より引用 (中央値のこと) 統計学入門(1)第5回 15 外れ値(Outlier) データの大部分が含まれるデータ値の区間 からかけ離れたところに位置するデータ 外れ値があるヒストグラム 統計学入門(1)第5回 16 野球選手の打率の分布(2000年) 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 0.220 0.240 0.260 0.280 0.300 0.320 打率 統計学入門(1)第5回 0.340 0.360 0.380 17 2つの分布の比較 年齢 96 84 72 60 48 36 24 12 0 20 25 30 35 40 45 50 性別: 男性 55 60 65 20 25 30 統計学入門(1)第5回 35 40 45 50 性別: 女性 55 60 65 18 2つの分布の比較 給与 140 120 100 80 60 40 20 0 0 10000 20000 30000 40000 性別: 男性 50000 60000 0 10000 統計学入門(1)第5回 20000 30000 40000 性別: 女性 50000 60000 19 2つの分布の比較 分布の形状の比較 山の数 対称性 分布の位置の比較 統計学入門(1)第5回 20 練習問題 (解説は次回講義で行われる) ある1時間にコンビニエ ンスストアでの購買金額 を記録し、そのデータを 店舗別に集計したところ 次のような集計表が得ら れた。ヒストグラムを作 成し、(a)-(d)の問題に 答えなさい。 (a) (b) (c) (d) 0-200 200-400 400-600 600-1000 1000-1500 1500-2000 2000-3000 3000-5000 合計 店舗A 28 36 32 40 35 25 30 40 266 店舗Aで購買金額が3500円と300円では、どちらの可能性が高いか 店舗Bで購買金額が700円と100円では、どちらの可能性が高いか 売上の平均はどちらの店舗が高いと思われるか 記録された1時間での総売上はどちらの店舗が高いと思われるか 統計学入門(1)第5回 店舗B 10 20 20 24 25 15 20 20 154 ( ( ( ( ) ) ) ) 21
© Copyright 2025 ExpyDoc