統計学入門(1) 第3回 -- データの整理 -- 今日の内容 データとは データの型・尺度 観測対象、変数… 質的・量的、4つの尺度 バラツキの様子の把握の方法 質的データの場合:集計とグラフ 統計学入門(1)第3回 2 変数とオブザベーション 変数(variable) 観測項目 資本金、従業員数、・・・ オブザベーション (observation) 観測対象 資本金 従業員数 売り上げ (万円) (人) (百万円) A工業 78660 1152 44064 B精機 2338400 9370 370040 Cエンジニアリング 559400 660 34023 D自動車 609600 4318 223078 E時計電機 234000 1269 22255 Fホーム 40000 150 13347 企業名 個々の企業 統計学入門(1)第3回 3 バラツキ(Variability) 観測対象(オブザベーションまたはケース)を通 して、観測項目(変数)に関するデータ値が一定 ではない様子 資本金 従業員数 売り上げ (万円) (人) (百万円) A工業 78660 1152 44064 B精機 2338400 9370 370040 Cエンジニアリング 559400 660 34023 D自動車 609600 4318 223078 E時計電機 234000 1269 22255 Fホーム 40000 150 13347 企業名 統計学入門(1)第3回 バラツキ 4 データの型 量的データ 数字で表現されるデータ 身長、年収、得点 質的データ カテゴリで表現されるデータ 性別、職種、学歴 統計学入門(1)第3回 5 質的変数(データ)と量的変数(データ) 少数個のカテゴリー のどれかが応答値 となる観測項目 性別(男性・女性), 職種(事務職・管理職) 改善度(有効・無効) 質的変数(Qualitative variable) 質的データ 数量値が応答値と なる観測項目 売上高, 生産指数 給与総額,在庫率 量的変数(Quantitative variable) 量的データ 統計学入門(1)第3回 6 4つの尺度 質的データ 量的データ 名義尺度 順序尺度 間隔尺度 比尺度 統計学入門(1)第3回 7 名義尺度 区別だけの情報 名前、 性別 出身県、 国籍 … 統計学入門(1)第3回 8 順序尺度 順序情報を含む ABCD評価の成績 満足,好みの調査 満足 - 普通 - 不満 … 統計学入門(1)第3回 9 間隔尺度 順序に加え間隔が意味を持つ 通常の数字データ 統計学入門(1)第3回 10 比尺度 原点 (0) が意味を持つ 何倍という概念が存在 物の長さ、重さ、… 統計学入門(1)第3回 11 尺度と演算 名義尺度 順序尺度 間隔尺度 比尺度 違いのみ 大きさの比較 足し算や引き算が可 掛け算や割り算が可 統計学入門(1)第3回 12 分析において どのような情報を使用しているかを注意す ること たとえば、 名義尺度として… 順序情報を利用しているか? 間隔尺度とみなした分析… (順序尺度であるが間隔尺度とみなした分析) 統計学入門(1)第3回 13 順序尺度を間隔尺度として… 間隔尺度のデータを便宜上順序尺度とみ なして分析することは多い A,B,C,Dに数字(たとえば、1,2,3,4)を割り 当て、平均を計算することも… グループの比較を行う場合に便利 ただし、分布自体を確認することも重要 統計学入門(1)第3回 14 データ分析の視点 全体のバラツキをみる 層別してグループ間の特徴を比較 変数間の関係をみる 時点変化をみる 統計学入門(1)第3回 15 データ分析の視点 全体のバラツキをみる! 層別して、グループ間の特徴を比較! 水準化(コード化)、層別 変数間の関係をみる! ヒストグラム・箱ヒゲ図、基礎統計量 多変量解析:(3年生の講義) 時点変化をみる! 時系列分析法 統計学入門(1)第3回 16 分析目的と尺度 分析目的に合うような情報の取得が必要 名義尺度のデータで優劣の判断はできない 差が必要な場合に順序尺度情報では不十分 … 統計学入門(1)第3回 17 質的データの分析(1変数の場合) 質的データの場合、バラツキの様子の把 握は比較的簡単 度数分布表 値ごとに度数を求め、その比率を計算する グラフ化の方法 棒グラフ・パレート図 円グラフ … 統計学入門(1)第3回 18 例:松坂投手の投球の分析 球種:質的なデータ 知りたいこと どのような球種をどの ような割合で投げてい るか 試合年月日ホームチーム名略 ビジターチーム名略 球種名 球速 20050326 西武 オリックス ストレート 20050326 西武 オリックス ストレート 20050326 西武 オリックス スライダー 20050326 西武 オリックス ストレート 20050326 西武 オリックス ストレート 20050326 西武 オリックス ストレート 20050326 西武 オリックス ストレート 20050326 西武 オリックス ストレート 20050326 西武 オリックス ストレート 20050326 西武 オリックス スライダー 20050326 西武 オリックス スライダー 統計学入門(1)第3回 19 146 145 126 146 147 147 148 147 147 133 126 度数分布表 まず、集計 球種名 度数 カーブ 172 カットボール 339 ストレート 1560 スライダー 814 チェンジアップ 281 フォーク 155 総計 3321 2006年シーズン 度数順に並べ替え 相対度数(比率)を求める 球種名 度数 相対度数 ストレート 1560 47% スライダー 814 25% カットボール 339 10% チェンジアップ 281 8% カーブ 172 5% フォーク 155 5% 総計 3321 統計学入門(1)第3回 20 なぜ、相対度数を求めるのか? 一般的な話としたいため 「何球投げた」というより、「どの程度の割合投 げた」というほうが一般的 何かと比較したいため 比較するためには度数では無理な場合が多 い 統計学入門(1)第3回 21 比較の例: 度数だけでの比較は難しい 渡辺(ロッテ) 松坂(西武) 球種名 度数 球種名 度数 シンカー 1185 ストレート 1729 ストレート 872 スライダー 871 スライダー 781 カットボール 372 カーブ 185 チェンジアップ 310 カーブ 184 フォーク 158 総計 3023 総計 3624 松坂投手と他の投手 の比較 対戦相手が右打者と 左打者の場合の比較 球種名 ストレート スライダー カットボール チェンジアップ カーブ フォーク 総計 左 950 337 271 297 88 97 2040 右 779 534 101 13 96 61 1584 計 1729 871 372 310 184 158 3624 注:データは上下とも2005年シーズン 統計学入門(1)第3回 22 比率に直せば… 対戦相手が右と左の比較 球種名 ストレート スライダー カットボール チェンジアップ カーブ フォーク 総計 左 右 47% 17% 13% 15% 4% 5% 100% 統計学入門(1)第3回 49% 34% 6% 1% 6% 4% 100% 計 48% 24% 10% 9% 5% 4% 100% 23 グラフ化すると 50% 40% 左 右 30% 20% 10% 0% ス ト レ ー ト ス ラ イ ダ ー カ ッ ト ボ ー ル チ ェ ン ジ ア ッ プ カ ー ブ 統計学入門(1)第3回 フ ォ ー ク 24 パレート図(Pareto chart) 度数分布表(質的データ)をグラフにしたもの 相対累積度数 (人) 20 相対累積曲線 100.00% 15 80.00% 60.00% 10 40.00% 5 20.00% 0 .00% アジア アメリカ ヨーロッパ オーストラリア アフリカ 図3-1 パレート図(質的変数:海外旅行先) 統計学入門(1)第3回 度数の大きな順 25 パレート図に関連する事項 パレートの法則 ニッパチの法則(2割8割) 2割の原因が8割の結果を占める ロングテール パレート図の右側に小さい度数の項目がたくさん並ん だ部分 昔は軽視(または無視)すべきとされた部分だが、 web2.0(または1 to 1マーケティング)などの世界で注 目すべきとされている 統計学入門(1)第3回 26 練習問題 問題1 ある政策について、支持するかどうかを調査し、次のようなデータを得た。 No. 性別 賛成反対 No. 性別 賛成反対 No. 性別 賛成反対 No. 性別 賛成反対 1 男 反対 11 女 反対 21 女 反対 31 女 反対 2 男 賛成 12 男 反対 22 男 賛成 32 男 反対 3 女 賛成 13 女 賛成 23 男 賛成 33 男 賛成 4 男 賛成 14 男 賛成 24 男 賛成 34 男 賛成 5 男 反対 15 男 賛成 25 男 反対 35 女 賛成 6 女 反対 16 男 賛成 26 女 賛成 36 女 反対 7 男 賛成 17 男 賛成 27 男 賛成 37 男 賛成 8 男 賛成 18 女 賛成 28 男 賛成 38 男 賛成 9 男 賛成 19 男 賛成 29 女 反対 39 男 反対 10 女 反対 20 男 賛成 30 女 反対 40 男 反対 Q1 全体についての度数分布表を完成させなさい。 回答 度数 相対度数(%) 賛成 反対 計 統計学入門(1)第3回 27 練習問題(続き) Q2 男女別に度数分布表を完成させ、政策の支持に関する男女の違いについて コメントしなさい。 統計学入門(1)第3回 28 練習問題:解答 Q1 回答 度数 相対度数(%) 賛成 25 63% 反対 15 38% 計 40 Q2 賛成 反対 総計 男性 20 7 27 74% 26% 女性 5 8 13 38% 62% コメント例: 男性に賛成が多く、女性には反対が多いという傾向がみられる 統計学入門(1)第3回 29
© Copyright 2024 ExpyDoc