第1章記述統計の復習統計学 2010年度 Ⅰ データの種類 Ⅱ 1変量データのまとめ方 a) 特性値による記述 1) 代表値（中心的傾向） ⅰ) 算術平均 ⅱ) メディアン ⅲ) モード ⅳ) 各代表値の特徴 2) 散布度（散らばりの傾向） ⅰ) 分散 ⅱ) 標準偏差 ⅲ) レンジ ⅳ) 四分位偏差 b) 表・グラフによる記述 1) 2) 3) 4) 棒グラフ・円グラフ・帯グラフ・折れ線グラフ度数分布表ヒストグラム・度数折れ線度数分布表における算術平均・分散 Ⅲ 2変量データのまとめ方 a) 特性値による記述 1) 相関係数 b) 表・グラフによる記述 1) 分割表（クロス集計表）・2次元ヒストグラム 2) 散布図 Ⅰ データの種類 10人の学生について下の表のような情報がえられた。出席番号学年性別出身地身長体重家族の人数テストの点数 1 2 男山口県 170.3 61.2 1 60 2 3 女山口県 155.4 48.6 4 90 3 4 男広島県 168.2 54.2 5 80 4 2 男福岡県 171.0 58.5 3 50 5 2 男島根県 175.4 57.6 2 70 6 3 男山口県 165.7 63.5 1 10 7 4 女広島県 157.2 50.1 1 60 8 3 女愛媛県 162.3 53.4 4 80 9 2 男山口県 177.1 63.0 3 20 10 3 男山口県 165.0 52.5 3 80 • 学年、性別、出身地、身長、体重、家族の人数、テストの点数という7つの変量（変数）について、10個の観測値を持つデータ。 • データを分析する場合、性別や出身地などの情報はなんらかの数値によって表されることが多い。出席番号学年性別出身地身長体重家族の人数テストの点数 1 2 1 35 170.3 61.2 1 60 2 3 2 35 155.4 48.6 4 90 3 4 1 34 168.2 54.2 5 80 4 2 1 40 171.0 58.5 3 50 5 2 1 32 175.4 57.6 2 70 6 3 1 35 165.7 63.5 1 10 7 4 2 34 157.2 50.1 1 60 8 3 2 38 162.3 53.4 4 80 9 2 1 35 177.1 63.0 3 20 10 3 1 35 165.0 52.5 3 80 この例では出身地（都道府県コード）、性別（男－１、女－２）を数値で表している。この表にある変量は次のように分類することができる。質的変量（質的変数）量的変量（量的変数）性別、学年、出身地など離散変量（離散変数）家族の人数、テストの点数など連続変量（連続変数）身長、体重など＜質的変量と量的変量＞ • • • 数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的変量という。家族の人数は数値に意味があるが、性別などは数値に意味が無い。また、学年は実際に大学に在学している年数とは異なり、分類のための数値である。質的変量か量的変量を見分けるには、「算術平均をとって意味があるか」を考えてみる方法がある。＜離散変量と連続変量＞ • • • 量的変量はさらに離散変量と連続変量に分類される。離散変量は家族の人数やテストの点数など、とびとびの値しかとらない変量である。一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値になる。(身長171.2865...cm)このような変量は連続変量である。テストの点数（離散変量） 50 51 52 53 身長（連続変量） 170 171 172 173 データの種類によって、まとめ方が異なる Ⅱ 1変量データのまとめ方 • データのまとめ方には 1. 特性値による記述（数値的表現） 2. 表・グラフによる記述（視覚的表現）がある。 • 特性値による記述は、データの特徴をまとめ、それを用いた分析をおこなうことが中心的な役割である。 • 表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。 a) 特性値による記述 1) 代表値（中心的傾向） • ある集団についてのデータ（例えば50人のクラスの身長など）があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 • 中心的傾向をあらわす数値として、 – 算術平均 – メディアン（中央値） – モード（最頻値）の3種類がある。 ⅰ) 算術平均 • 算術平均＝データの合計 ÷ データ数 n x  x    xn x 1 2  n x i 1 i n （例） 10人のテストの点数出席番号点数 x 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 60  90  80  50  70  10  60  80  20  80 600   60 10 10 ⅱ) メディアン（中央値、中位数） • メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の 2つの値を足して2で割る。出席番号点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 点数の低い順に並べ替え 10 20 50 60 60 70 80 80 80 90 真ん中この2つを足して2で割った（60＋70）÷2=65がメディアン ⅲ) モード（最頻値） • モード－データの中で最も多く出てくる値。10 人のテストの点数の例では出席番号点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 80点が3人と最も多い。モードは80となる。 † データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。 ⅳ) 各代表値の特徴 • 下の表は2009年の東北楽天と埼玉西武の投手別勝利数（上位5人）である。東北楽天田中岩隈永井福盛長谷部埼玉西武 15 13 13 7 5 涌井岸石井(一) 帆足西口 16 13 9 9 4 算術平均 10.6 算術平均 10.2 メディアン 13 メディアン 9 データ出典：日本野球機構オフィシャルサイト(www.npb.or.jp) • • 東北楽天の算術平均は10.6勝、埼玉西武の算術平均は10.2勝と、差はあまり大きくない。埼玉西武は、算術平均以上は涌井、岸の2人のみで、メディアンは9勝と小さくなるのに対し、東北楽天は、算術平均以上が3人いて、メディアンも13勝と大きくなる。これは2009年の埼玉西武が、涌井、岸の2本柱に頼っていたのに対し、東北楽天は合格点の投手が多数いたことを示している。 • 下の図は貯蓄現在高階級別の世帯分布である。 • 貯蓄現在高が算術平均(1680万円)より低い世帯は全世帯の3分の 2におよぶ。ほとんどの世帯はメディアンである 995万円ほどの貯蓄もなく、200万円未満の貯蓄しかない(ここがモードである)。 • 少数の大金持ちと多数の庶民がいるため、このようなことがおこる。出典：総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1) • 算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。 • しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。（この場合はモードが適切か） • しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。算術平均をうのみにしないようにしよう！ b) 特性値による記述 1) 散布度（散らばりの傾向）教員A • チャイムの５分後に必ず教室にくる。教員B • チャイムと同時に教室にくることもあれば、１０分以上遅れることもある。 • ２人の教員はともに平均してチャイムの５分後に教室にくる • 2人の教員の特徴を表現するために、平均だけでは不十分。 →散らばりの尺度の必要性 • 散らばりの傾向をあらわす尺度として – 分散、標準偏差 – レンジ（範囲）、四分位偏差などがある。 ⅰ）分散 • 分散＝偏差2乗和÷データ数偏差2乗和－個々のデータから算術平均を引いたもの（偏差）を2乗して、すべて加えたもの。 n ( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2 s   n 2  (x  x) i 1 2 i n 10人のテストの点数の例では (60 60)2  (90 60)2  (80 60)2  (50 60)2  (70 60)2  (10 60)2  (60 60)2  (80 60)2  (20 60)2  (80 60)2 s  10 2  6400  640 10 出席番号点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 -40 20 400 1600 400 算術平均60を引く偏差 0 30 20 -10 10 -50 0 20 2乗を求める 0 900 400 100 100 2500 0 合計を求める６４００データ数(10)で割る 640 分散 ⅱ）標準偏差 • 標準偏差 ⇒ 分散の平方根 n s  s2  2 ( x  x )  i i 1 n 10人のテストの点数の例では s  640  25.298 ※ 2人の教員が教室に来る時間の例回教員A 教員B 1 4.5 0 2 5.3 6 3 4.8 4 4 5 5 5 5.5 11 (単位:分) 6 4.7 4 7 5.2 8 8 4.8 5 9 4.9 1 10 5.3 6 教員A xA  4.5  5.3  4.8  5  5.5  4.7  5.2  4.8  4.9  5.3 50  5 10 10 (4.5  5) 2  (5.3  5) 2  (4.8  5) 2  (5  5) 2  (5.5  5) 2  (4.7  5) 2  (5.2  5) 2  (4.8  5) 2  (4.9  5) 2  (5.3  5) 2 10 2 2 2 2 2 2 2 (0.5)  (0.3)  (0.2)  (0)  (0.5)  (0.3)  (0.2)  (0.2) 2  (0.1) 2  (0.3) 2  10 0.25  0.09  0.04  0  0.25  0.09  0.04  0.04  0.01 0.09  10 0.9   0.09 10 s A2  sA  0.09  0.3 教員B 0  6  4  5  11  4  8  5  1  6 50 xB   5 10 10 (0  5) 2  (6  5) 2  (4  5) 2  (5  5) 2  (11 5) 2  (4  5) 2  (8  5) 2  (5  5) 2  (1  5) 2  (6  5) 2 s  10 (5) 2  (1) 2  (1) 2  (0) 2  (6) 2  (1) 2  (3) 2  (0) 2  (4) 2  (1) 2  10 25  1  1  0  36  1  9  0  16  1  10 90  9 10 2 B sB  9  3 s A2  sB2 となり、教員Bの分散の方が大きいことがわかる。標準偏差も s A  sB である。 ⅲ）レンジ（範囲） • レンジ ⇒ データの取りうる範囲レンジ＝最大値－最小値 • 10人のテストの点数の例では 90 - 10＝８０ ⅳ）四分位偏差 • データを大きさの順（小さい順）に並べて、4分割する点を q1,q2,q3とする。 • このとき、次式で定義されるQを四分位偏差という。 Q 最小値 q1 (q3  q1 ) 2 q2 q3 最大値（例）9人のテストの点数が次のようになっていたとする。出席番号点数 1 60 2 90 3 80 4 50 5 6 7 8 9 70 10 60 80 20 点数の低い順に並べ替え 10 20 50 60 60 最小値 q1 q2 70 80 q3 80 90 最大値（メディアン） q1⇒最小値とq2（メディアン）の真ん中の値 q3⇒q2（メディアン）と最大値の真ん中の値 Q (80  50) 30   15 2 2 b) 表・グラフによる記述 1) 棒グラフ・円グラフ・帯グラフ・折れ線グラフ • 集団の特徴をあらわすためには、代表値や散布度などの数値とともに、さまざまな表やグラフが用いられる。学年別の割合 3.5 3 20% 度数 2.5 2 40% 1.5 2年 3年 1 4年 0.5 0 1人 2人 3人 4人 5人 40% 家族の人数 • 棒グラフは、家族の人数や学年などの各変量がとる値の度数をあらわすのに用いられる。 • 円グラフは、その度数の全体に占める割合をあらわすのに用いられる。完全失業率の推移(男女計・季節調整値) 年齢3階級別総人口の推移年 6 1950 0-14歳 15-64歳 65歳- 1970 1990 完全失業率(%) 1930 5.5 5 4.5 4 3.5 0% 20% 40% 60% 80% 100% 出典：総務省統計局『国勢調査』 2010年1月 2009年9月 2009年5月 2009年1月 2008年9月 2008年5月 2008年1月 2007年9月 2007年5月 2007年1月 2006年9月 2006年5月 2006年1月 2005年9月 2005 2005年5月 2005年1月 3 年・月出典：総務省統計局『労働力調査』 • 帯グラフは、度数の割合が時間とともにどのように変化するかなどを見るために利用される。 • 折れ線グラフは、主に時系列データ（時間の順序によって並べたデータ）の変化を表すために利用される。 2) 度数分布表 • 質的変量および量的変量のうち離散変量は、棒グラフや円グラフとして表すことができる。 • では、連続変量を棒グラフで表したい場合どのようにすればよいであろうか？そのままあらわすと下図のようになる。身長の棒グラフ(男子) 度数 1 178 176 177 175 175 173 174 172 173 171 171 169 170 168 169 166 167 165 166 0 • このような棒グラフでは、集団の特徴がよくわからない。 • そこで、データをいくつかの階級に分け、その階級に入る度数を表の形でまとめた度数分布表を作成する必要がある。サッカー日本代表キリンチャレンジカップ2010 対セルビア戦 (2010.4.7)ベンチ入りメンバー氏名楢崎　正剛川島　永嗣中澤　佑二栗原　勇蔵徳永　悠平長友　佑都槙野　智章内田　篤人中村　俊輔稲本　潤一遠藤　保仁石川　直宏阿部　勇樹山瀬　功治玉田圭司矢野　貴章岡崎　慎司興梠　慎三永井　謙佑身長(cm) 体重(kg) 187 80 185 80 187 78 184 80 180 76 170 65 182 75 176 62 178 70 181 75 178 75 175 69 177 77 173 70 173 67 185 76 173 70 175 67 177 67 階級以上 170 175 180 185 計未満 - 175 180 185 190 階級値 172.5 177.5 182.5 187.5 度数 4 7 4 4 19 † その階級を代表する値を階級値という。階級の上限と下限をたして2で割った値が用いられることが多い。 • 度数分布表の階級の幅は原則として均一にする。ただし、貯蓄現在高のようにすべて均一にすることによって、度数が極めて小さくなる場合には、一部の階級幅を広げることもある。 † 質的変量や離散変量の場合は、とりうる値1つ 1つが階級となる。ただし、年収・貯蓄のようにとり得る値が多い場合には、連続変量と同様に階級を設定する。３）ヒストグラム・度数折れ線 • 度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。 • 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフで結んだものである。身長のヒストグラム(20歳男子、107人) 8 20 6 15 度数度数サッカー日本代表の身長 4 2 10 5 0 172.5 177.5 182.5 階級値 187.5 0 159 161 163 165 167 169 171 173 175 177 179 181 183 階級値 • 度数分布表の階級幅、階級の上限と下限の値の取り方によってヒストグラムは大きく変化する。体重のヒストグラム(階級幅５kg) 3.5 3 2.5 2 1.5 1 0.5 0 度数度数体重のヒストグラム(階級幅2kg) 63 65 67 69 71 73 75 階級値 77 79 81 8 7 6 5 4 3 2 1 0 83 62.5 72.5 階級値 77.5 82.5 体重のヒストグラム(階級幅３kg(ｂ)) 体重のヒストグラム(階級幅３kg(a)) 6 7 6 5 4 3 2 1 0 5 4 度数度数 67.5 3 2 1 0 61.5 64.5 67.5 70.5 73.5 階級値 76.5 79.5 82.5 62.5 65.5 68.5 71.5 階級値 74.5 77.5 80.5 4) 度数分布表における算術平均・分散の導出 • 先の例では、サッカー日本代表19人の身長のデータを度数分布表にまとめた。 • 反対に個々のデータが入手できず、度数分布表のみ入手できる場合がある。その場合、度数分布表から19人の身長の算術平均、分散の近似値を求めることができる。階級以上 170 175 180 185 計未満 - 175 180 185 190 階級値 172.5 177.5 182.5 187.5 度数 4 7 4 4 19 • 上のような度数分布表のみが入手できたとする。 • この度数分布表で、170cm以上175cm未満の階級は4人いるが、この4人の個々の身長については情報がないとする。 • 算術平均を求める場合、この階級4人の個々の身長について、何らかの仮定が必要となる。階級以上 170 175 180 185 計未満 - 175 180 185 190 階級値 y1 172.5 y2 177.5 y3 182.5 y4 187.5 度数 4 7 4 4 19 f1 f2 f3 f4 • 4人全員が上限のあたりや下限のあたり(4人全員が170ｃｍとか、4人全員が174cmとか)という状態はあまり考えられない。通常は上限の近くから下限の近くまで適当に散らばっていると考えられる。このとき、4人の算術平均を取れば階級の真ん中あたりの値となると考えるのは自然な発想である。 • 階級値は、そういう意味で階級を代表する値である。 • 算術平均、分散を求める場合、4人全員が階級値の172.5cm であったと仮定する。 • 算術平均を求める場合、4人の身長の合計は 4×172.5 = 690(cm) となる。(記号で表すとf1y1) • このように、各階級について度数×階級値 (fiyi)を求め、それを全階級について加えたものが全員の身長の合計(に近い値)と考えられる。 • よって、算術平均は（度数×階級値）の総和÷度数の総和として求められる。 m f y  f 2 y2    f m ym y 1 1  f1  f 2    f m fy i 1 m i f i 1 i i • 度数分布表において算術平均を求めるには、度数×階級値 (fiyi)の列を計算し、その和を求める。 • そしてその和を度数の合計で割れば算術平均が求まる。階級以上 170 175 180 185 未満 - 175 180 185 190 階級値(yi) 度数(fi) 172.5 177.5 182.5 187.5 計 • 算術平均は y 4 7 4 4 19 fiyi fiyi 2 690 119025 1242.5 220543.8 730 133225 750 140625 3412.5 613418.8 3412 .5  179 .61 19 となる。（元のデータから算術平均を求めると、178.74cmとなる） • 分散の計算において、この階級の4人の偏差2乗和は 4×（172.5 – 179.61)2 = 4×50.5521 = 202.2084 となる。 • 各階級について度数×（階級値－算術平均）2 を求め、その総和を度数の総和で割ったものが分散となる。 m f1 ( y1  y ) 2  f 2 ( y2  y ) 2    f m ( ym  y ) 2 s   f1  f 2    f m 2  i 1 f i ( yi  y ) 2 m f i 1 i この式は次のように変形できる。 f1 ( y1  y ) 2  f 2 ( y2  y ) 2    f m ( ym  y ) 2 s  f1  f 2    f m 2 f1 y12  2 f1 y1 y  f1 y 2  f 2 y22  2 f 2 y2 y  f 2 y 2    f m ym2  2 f m ym y  f m y 2  f1  f 2    f m f1 y12  f 2 y22   f m ym2  2 y ( f1 y1  f 2 y2    f m ym )  y 2 ( f1  f 2    f m )  f1  f 2    f m f1 y12  f 2 y22   f m ym2   2y  y  y2 f1  f 2    f m f1 y12  f 2 y22   f m ym2   y2 f1  f 2    f m よって、fiyi2の列を求め、その総和を度数の総和で割り、算術平均の2乗を引いたものが分散の近似値となる。 s2  613418 .8  (179 .61) 2  32285 .2  32258 .05  27.15 19 （元のデータから分散を求めると、25.14となる） Ⅲ 2変量データのまとめ方 • 2変量データ → 2つの対になったデータ（例）サッカー日本代表の身長と体重 ※ 日本代表の身長と韓国代表の体重は2つのデータであるが、対になっていない。 ※ 2変量データはその組合せを変えることはできない → 楢崎の身長と玉田の体重を組み合わせても、意味がない。 • 2変量データの記述 → それぞれ1変量の記述＋ 2変量の関係の記述 a) 特性値による記述 1) 相関係数 r  (x  x )(y - y)  (x  x )  (y - y) i i 2 i 2 i • 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。  r＞０正の相関 1に近いほど関連度が強い  r＜０負の相関 -1に近いほど関連度が強い  r＝０無相関後で説明する散布図と密接な関係がある。 b) 表・グラフによる記述 1) 分割表（クロス集計表）・2次元ヒストグラム • 2変量についてクロス集計した度数 • 分割表は下のような2 分布表のことを、分割表（またはク次元ヒストグラムであロス集計表）という。らわすことができる。 3 2 1 80-83 77-80 71-74 68-71 170-175 身長 74-77 0 180-185 65-68 計 1 4 4 0 5 2 3 19 62-65 体重 62-65 65-68 68-71 71-74 74-77 77-80 80-83 計 165-170 170-175 0 0 0 2 0 2 0 0 0 0 0 0 0 0 0 4 身長 175-180 180-185 185-190 1 0 0 2 0 0 2 0 0 0 0 0 1 3 1 1 0 1 0 1 2 7 4 4 体重２）散布図 • 横軸にX、縦軸にYをとった座標軸上に、個々のデータをあらわしたもの。 • 相関係数と密接な関係があり、相関係数が±１に近いほど、散布図は直線に近くなる。正の相関（r＞0) 負の相関（r＜0) •Xが大きな値をとるほど、Yも大きな値をとる。 •Xが大きな値をとるほど、Yは小さな値をとる。無相関（r=0) •Xの値とYの値に一定の傾向がみられない。 • サッカー日本代表の身長と体重の散布図は下の図のようになる。サッカー日本代表の身長と体重 85 体重(kg) 80 75 70 65 60 165 170 175 180 185 190 身長(cm) • サッカー日本代表の身長と体重の間には正の相関がやや見られる。 (ｒ＝0.827)