第1章 記述統計の復習 統計学 2006年度 Ⅰ データの種類 Ⅱ 1変量データのまとめ方 a) 特性値による記述 1) 代表値(中心的傾向) ⅰ) 算術平均 ⅱ) メディアン ⅲ) モード ⅳ) 各代表値の特徴 2) 散布度(散らばりの傾向) ⅰ) 分散 ⅱ) 標準偏差 ⅲ) レンジ ⅳ) 四分位偏差 b) 表・グラフによる記述 1) 棒グラフ・円グラフ・帯グラフ・折れ線グラフ 2) 度数分布表 3) ヒストグラム・度数折れ線 Ⅲ 2変量データのまとめ方 a) 特性値による記述 1) 相関係数 b) 表・グラフによる記述 1) 分割表(クロス集計表)・2次元ヒストグラム 2) 散布図 Ⅰ データの種類 10人の学生について下の表のような情報がえられた。 出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数 1 2 男 山口県 170.3 61.2 1 60 2 3 女 山口県 155.4 48.6 4 90 3 4 男 広島県 168.2 54.2 5 80 4 2 男 福岡県 171.0 58.5 3 50 5 2 男 島根県 175.4 57.6 2 70 6 3 男 山口県 165.7 63.5 1 10 7 4 女 広島県 157.2 50.1 1 60 8 3 女 愛媛県 162.3 53.4 4 80 9 2 男 山口県 177.1 63.0 3 20 10 3 男 山口県 165.0 52.5 3 80 • 学年、性別、出身地、身長、体重、家族の人数、テストの点数 という7つの変量(変数)について、10個の観測値を持つデー タ。 • データを分析する場合、性別や出身地などの情報はなんら かの数値によって表されることが多い。 出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数 1 2 1 35 170.3 61.2 1 60 2 3 2 35 155.4 48.6 4 90 3 4 1 34 168.2 54.2 5 80 4 2 1 40 171.0 58.5 3 50 5 2 1 32 175.4 57.6 2 70 6 3 1 35 165.7 63.5 1 10 7 4 2 34 157.2 50.1 1 60 8 3 2 38 162.3 53.4 4 80 9 2 1 35 177.1 63.0 3 20 10 3 1 35 165.0 52.5 3 80 この例では出身地(都道府県コード)、性別(男-1、女-2)を 数値で表している。 この表にある変量は次のように分類することができる。 質的変量(質的変数) 量的変量(量的変数) 性別、学年、出身地など 離散変量(離散変数) 家族の人数、テストの点数など 連続変量(連続変数) 身長、体重など <質的変量と量的変量> • • • 数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的 変量という。 家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま た、学年は実際に大学に在学している年数とは異なり、分類のための数 値である。 質的変量か量的変量を見分けるには、「算術平均をとって意味がある か」を考えてみる方法がある。 <離散変量と連続変量> • • • 量的変量はさらに離散変量と連続変量に分類される。 離散変量は家族の人数やテストの点数など、とびとびの値しかとらない 変量である。 一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に なる。(身長171.2865...cm)このような変量は連続変量である。 テストの点数(離散変量) 50 51 52 53 身長(連続変量) 170 171 172 173 データの種類によって、まとめ方が異なる Ⅱ 1変量データのまとめ方 • データのまとめ方には 1. 特性値による記述(数値的表現) 2. 表・グラフによる記述(視覚的表現) がある。 • 特性値による記述は、データの特徴をまとめ、それ を用いた分析をおこなうことが中心的な役割である。 • 表・グラフによる記述は、データの特徴を一目でとら えやすくするためにおこなわれる。 a) 特性値による記述 1) 代表値(中心的傾向) • ある集団についてのデータ(例えば50人のクラスの身長な ど)があるとき、集団の特徴をあらわすには、その中心的傾 向を示す数値が必要となる。 • 中心的傾向をあらわす数値として、 – 算術平均 – メディアン(中央値) – モード(最頻値) の3種類がある。 ⅰ) 算術平均 • 算術平均 = データの合計 ÷ データ数 n x x xn x 1 2 n x i 1 i n (例) 10人のテストの点数 出席番号 点数 x 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 60 90 80 50 70 10 60 80 20 80 600 60 10 10 ⅱ) メディアン(中央値、中位数) • メディアン → データを大きさの順に並べたときに 真ん中にくる値。データ数が偶数のときは真ん中の 2つの値を足して2で割る。 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 点数の低い順に並べ替え 10 20 50 60 60 70 80 80 80 90 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン ⅲ) モード(最頻値) • モード - データの中で最も多く出てくる値。10 人のテストの点数の例では 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 80点が3人と最も多い。モードは80となる。 † データのとりうる値が多いとき、データの最も多く出てくるものではな く、度数分布表にしたときに、最も度数の多い階級の階級値をモード と考える。 ⅳ) 各代表値の特徴 • 下の表は2005年の阪神と巨人の打者別本塁打数(上位 5人)である。 阪神 金本 今岡 シーツ 矢野 鳥谷 算術平均 メディアン 40 29 19 19 9 巨人 小久保 ローズ 阿部 清原 高橋(由) 23.2 算術平均 19 メディアン 34 27 26 22 17 25.2 26 データ出典:日本野球機構オフィシャルサイト(www.npb.or.jp) • 巨人は算術平均とメディアンの差が0.8本と小さいのに対し、阪神は 4.2本もある。これは巨人が5人ともそこそこ打っているのに対し、阪 神は金本と今岡で大部分を占めているからである。 • 下の図は貯蓄現在高階級別の世帯分布である。 出典:総務省統計局『明日への統計 2005』(www. stat.go.jp/info/guide/asu/2005/17.htm) • 貯蓄現在高が算術平均より低い世帯は全世帯の3分の2におよぶ。ほ とんどの世帯はメディアンである1027万円ほどの貯蓄もなく、200万 円未満の貯蓄しかない(ここがモードである)。 • 少数の大金持ちと多数の庶民がいるため、このようなことがおこる。 • 算術平均は少数の極端な値が含まれるとき、 その集団の正しい代表値とならないことがある。 メディアンの方が少数の極端な値の影響を受 けづらい。 • しかし、貯蓄現在高のように分布がゆがんでい る場合には、メディアンでも集団の正しい代表 値とはいえない場合もある。(この場合はモー ドが適切か) • しかし、算術平均は数学的な扱いやすさから、 代表値として非常に良く用いられている。 算術平均をうのみにしないようにしよう! b) 特性値による記述 1) 散布度(散らばりの傾向) 教員A • チャイムの5分後に必ず教室 にくる。 教員B • チャイムと同時に教室にくるこ ともあれば、15分以上遅れる こともある。 • 2人の教員はともに平均してチャイムの5分後に教室にくる • 2人の教員の特徴を表現するために、平均だけでは不十分。 →散らばりの尺度の必要性 • 散らばりの傾向をあらわす尺度として – 分散、標準偏差 – レンジ(範囲)、四分位偏差 などがある。 ⅰ) 分散 • 分散=偏差2乗和÷データ数 偏差2乗和 - 個々のデータから算術平均を引いたもの(偏 差)を2乗して、すべて加えたもの。 n ( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2 s n 2 (x x) i 1 2 i n 10人のテストの点数の例では (60 60)2 (90 60)2 (80 60)2 (50 60)2 (70 60)2 (10 60)2 (60 60)2 (80 60)2 (20 60)2 (80 60)2 s 10 2 6400 640 10 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 -40 20 400 1600 400 算術平均60を引く 偏差 0 30 20 -10 10 -50 0 20 2乗を求める 0 900 400 100 100 2500 0 合計を求める 6400 データ数(10)で割る 640 分散 ⅱ) 標準偏差 • 標準偏差 ⇒ 分散の平方根 n s s2 2 ( x x ) i i 1 n 10人のテストの点数の例では s 640 25.298 ⅲ) レンジ(範囲) • レンジ ⇒ データの取りうる範囲 レンジ = 最大値 ー 最小値 • 10人のテストの点数の例では 90 - 10=80 ⅳ) 四分位偏差 • データを大きさの順(小さい順)に並べて、4分割す る点をq1,q2,q3とする。 • このとき、次式で定義されるQを四分位偏差という。 (q3 q1 ) Q 2 最小値 q1 q2 q3 最大値 (例)9人のテストの点数が次のようになってい たとする。 出席番号 点数 1 60 2 90 3 80 4 50 5 6 7 8 9 70 10 60 80 20 点数の低い順に並べ替え 10 20 50 60 60 最小値 q1 q2 70 80 q3 80 90 最大値 (メディアン) q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値 Q (80 50) 30 15 2 2 b) 表・グラフによる記述 1) 棒グラフ・円グラフ・帯グラフ・折れ線グラフ • 集団の特徴をあらわすためには、代表値や散布度などの数 値ととも、さまざまな表やグラフが用いられる。 学年別の割合 3.5 3 20% 度数 2.5 2 40% 1.5 2年 3年 1 4年 0.5 0 1人 2人 3人 4人 5人 40% 家族の人数 • 棒グラフは、家族の人数や学年などの各変量がとる値の度 数をあらわすのに用いられる。 • 円グラフは、その度数の全体に占める割合をあらわすのに 用いられる。 年齢3階級別総人口の推移 年 完全失業率の推移 (%) 5.0 4.8 4.6 4.4 2006年1月 2005年11月 2005年9月 100% 2005年7月 80% 2005年5月 60% 2005年3月 40% 2005年1月 20% 2004年11月 0% 2004年9月 2004 2004年7月 1990 4.2 4.0 3.8 3.6 2004年5月 0-14歳 15-64歳 65歳- 1970 2004年3月 1950 2004年1月 1930 年・ 月 • 帯グラフは、度数の割合が時間とともにどのように変化する かなどを見るために利用される。 • 折れ線グラフは、主に時系列データ(時間の順序によって並 べたデータ)の変化を表すために利用される。 2) 度数分布表 • 質的変量および量的変量のうち離散変量は、棒グラフや円 グラフとして表すことができる。 • では、連続変量を棒グラフで表したい場合どのようにすれば よいであろうか?そのままあらわすと下図のようになる。 身長の棒グラフ(男子) 度数 1 178 176 177 175 175 173 174 172 173 171 171 169 170 168 169 166 167 165 166 0 • このような棒グラフでは、集団の特徴がよくわからない。 • そこで、データをいくつかの階級に分け、その階級に入る度 数を表の形でまとめた度数分布表を作成する必要がある。 サッカー日本代表 対エクアドル戦ベンチ入りメンバー 身長(cm ) 体重(kg) 氏名 76 185 楢崎 正剛 84 184 土肥 洋一 78 179 川口 能活 74 178 田中 誠 72 176 宮本 恒靖 69 178 三都主アレサンドロ 67 179 坪井 慶介 73 177 加地 亮 78 187 中澤 佑二 77 181 茂庭 照幸 70 174 村井 慎二 71 171 駒野 友一 72 173 小笠原満男 77 181 福西 崇史 74 175 小野 伸二 77 177 阿部 勇樹 65 177 長谷部 誠 73 181 久保 竜彦 63 173 玉田 圭司 81 184 巻 誠一郎 64 170 佐藤 寿人 階 級 以上 170 175 180 185 計 未満 - 175 180 185 190 階級値 172.5 177.5 182.5 187.5 度数 5 9 5 2 21 † その階級を代表する値 を階級値という。階級の上 限と下限をたして2で割った 値が用いられることが多い。 • 度数分布表の階級の幅は原則として均一にする。ただし、貯 蓄現在高のようにすべて均一にすることによって、度数が極 めて小さくなる場合には、一部の階級幅を広げることもある。 † 質的変量や離散変量の場合は、とりうる値1つ1つが階級となる。 ただし、年収・貯蓄のようにとり得る値が多い場合には、連続変量と同様 に階級を設定する。 <度数分布表からの算術平均、分散の導出> • 度数分布表にまとめられたデータについて、算術平均と分散 を求めることができる。 階級値 y1 y2 … ym 度数 f1 f2 … fm • 上のような度数分布表があったとする。 このとき、 算術平均=(度数×階級値)の総和÷度数の総和 として求められる。 m f y f 2 y2 f m ym y 1 1 f1 f 2 f m fy i 1 m i f i 1 i i 分散={(階級値-算術平均)2×度数}の総和÷度数の総和 として求められる。 m f1 ( y1 y ) 2 f 2 ( y2 y ) 2 f m ( ym y ) 2 s f1 f 2 f m 2 i 1 f i ( yi y ) 2 m f i 1 i 計算のためには、 m s 2 fy i 1 m i f i 1 2 i y2 i これらの算術平均と分散は原データから求めた算術平均と分 散の近似値となる。 サッカー日本代表の度数分布表について考えてみると 階 級 以上 170 175 180 185 未満 - 175 180 185 190 階級値 度数 172.5 177.5 182.5 187.5 計 5 9 5 2 21 算術平均(原データで計算すると178.10) y 5 172.5 9 177.5 5 182.5 2 187.5 3747.5 178.45 595 2 21 分散(原データで計算すると20.28) 5 172.52 9 177.52 5 182.52 2 187.52 s 178.452 595 2 669181.25 31844.40 20.52 21 2 3) ヒストグラム・度数折れ線 • 度数分布表を棒グラフであらわしたものをヒストグラムといい、 それぞれの棒は間隔をつめて描かれる。これは階級と階級 の間が連続していることによる。 • 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ で結んだものである。 サッカー日本代表の身長 身長のヒストグラム(20歳男子、107人) 10 20 15 6 度数 度数 8 4 10 5 2 0 172.5 177.5 182.5 階級値 187.5 0 159 161 163 165 167 169 171 173 175 177 179 181 183 階級値 • 度数分布表の階級幅、階級の上限と下限の値の取り方に よってヒストグラムは大きく変化する。 体重のヒストグラム(階級幅5kg) 5 10 4 8 3 6 度数 度数 体重のヒストグラム(階級幅2kg) 2 4 1 2 0 0 63 65 67 69 71 73 75 階級値 77 79 81 83 85 62.5 72.5 階級値 77.5 82.5 体重のヒストグラム(階級幅3kg(b) 体重のヒストグラム(階級幅3kg(a)) 6 7 6 5 4 3 2 1 0 5 4 度数 度数 67.5 3 2 1 0 64.5 67.5 70.5 73.5 76.5 階級値 79.5 82.5 85.5 62.5 65.5 68.5 71.5 74.5 階級値 77.5 80.5 83.5 Ⅲ 2変量データのまとめ方 • 2変量データ → 2つの対になったデータ (例)サッカー日本代表の身長と体重 ※ 日本代表の身長と韓国代表の体重は2つのデータ であるが、対になっていない。 ※ 2変量データはその組合せを変えることはできない → 楢崎の身長と川口の体重を組み合わせても、意 味がない。 • 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述 a) 特性値による記述 1) 相関係数 r (x x )(y - y) (x x ) (y - y) i i 2 i 2 i • 相関係数rは-1と1の間の値をとる。 – r>0 正の相関 – r<0 負の相関 – r=0 無相関 b) 表・グラフによる記述 1) 分割表(クロス集計表)・2次元ヒストグラム • 2変量についてクロス集計した度数分布表のことを、分割 表(またはクロス集計表)という。 体 重 62-65 65-68 68-71 71-74 74-77 77-80 80-83 83-86 計 170-175 175-180 2 0 0 2 1 1 2 2 0 2 0 2 0 0 0 0 5 9 身長 180-185 185-190 0 0 0 0 0 0 1 0 0 1 2 1 1 0 1 0 5 2 計 2 2 2 5 3 5 1 1 21 • 分割表は下のような2次元ヒストグラムであらわすことが できる。 2 83-86 80-83 77-80 74-77 71-74 68-71 65-68 180-185 170-175 身長 62-65 1 0 体重 2) 散布図 • 横軸にX、縦軸にYをとった座標軸上に、個々のデータを あらわしたもの。 • 相関係数と密接な関係がある。 正の相関(r>0) 負の相関(r<0) •Xが大きな値をとる ほど、Yも大きな値を とる。 •Xが大きな値をとる ほど、Yは小さな値を とる。 無相関(r=0) •Xの値とYの値に一 定の傾向がみられな い。
© Copyright 2024 ExpyDoc