Ⅰ 表・グラフによる記述 1) 折れ線グラフと棒グラフ 2) 度数分布表とヒストグラム、度数折れ線 ⅰ) 度数分布表 ⅱ) ヒストグラムと度数折れ線 ⅲ) 幹葉表示 3) 円グラフ、帯グラフ Ⅱ 特性値による記述 1) 代表値(中心的傾向) ⅰ) ⅱ) ⅲ) ⅳ) 算術平均 メディアン(中央値) モード(最頻値) 各代表値の特徴 2) 散布度(散らばりの傾向) ⅰ) ⅱ) ⅲ) ⅳ) 分散 標準偏差 レンジ 四分位範囲、四分位偏差 データのまとめ方には 1.表・グラフによる記述(視覚的表現) 2.特性値による記述(数値的表現) がある。 表・グラフによる記述は、データの特徴を一目 でとらえやすくするためにおこなわれる。 特性値による記述は、データの特徴をまとめ、 それを用いた分析をおこなうことが中心的な役 割である。 1) 折れ線グラフと棒グラフ ともにさまざまなデータの表現に利用される。 折れ線グラフは、主に時系列データ(時間の順序によって並べた データ)に利用される。棒グラフは時系列データにもクロスセク ションデータ(1時点におけるデータを何らかの項目でまとめたも の)にも利用される。 完全失業率の推移(男女計・季節調整値) チーム別本塁打数 (2014年9月30日終了時点、パ・リーグ) 5.5 本塁打数(本) 5 4.5 4 3.5 3 2008年1月 2008年5月 2008年9月 2009年1月 2009年5月 2009年9月 2010年1月 2010年5月 2010年9月 2011年1月 2011年5月 2011年9月 2012年1月 2012年5月 2012年9月 2013年1月 2013年5月 2013年9月 2014年1月 2014年5月 完全失業率(%) 6 出典:総務省統計局『労働力調査』 140 120 100 80 60 40 20 0 出典:日本野球機構オフィシャルサイト <時系列データとクロスセクションデータ> (例) 交通事故死亡者数の推移(中国地方5県) (データ出典: 警察庁「交通事故死者数について」) (単位:人) 年 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 鳥取県 61 79 61 51 45 39 34 30 37 42 26 30 25 島根県 72 73 74 47 69 46 42 42 33 31 31 45 28 岡山県 190 169 175 159 148 144 115 114 107 109 106 112 107 広島県 251 202 187 189 187 165 132 128 142 127 113 125 116 鳥取県の交通事故死亡者数の年次推移 → 時系列データ 2013年の県別交通事故死亡者数 → クロスセクションデータ 山口県 152 141 129 106 116 108 115 91 108 96 74 56 65 都道府県別高等学校数 (2014年5月1日現在) クロスセクション データには、通常 棒グラフを用いる。 500 450 400 350 300 250 200 150 100 50 0 北青岩宮秋山福茨栃群埼千東神新富石福山長岐静愛三滋京大兵奈和鳥島岡広山徳香愛高福佐長熊大宮鹿沖 海森手城田形島城木馬玉葉京奈潟山川井梨野阜岡知重賀都阪庫良歌取根山島口島川媛知岡賀崎本分崎児縄 道 川 山 島 出典:文部科学省『学校基本調査』 右の図は上の図 を折れ線グラフで 描きなおしたもの であるが、隣り合 う県†どうしを線で 結んでも、そこに 意味はない。 †都道府県コードの順 なので、必ずしも隣接 してはいない。 都道府県別高等学校数 (2014年5月1日現在) 500 450 400 350 300 250 200 150 100 50 0 ??? 北青岩宮秋山福茨栃群埼千東神新富石福山長岐静愛三滋京大兵奈和鳥島岡広山徳香愛高福佐長熊大宮鹿沖 海森手城田形島城木馬玉葉京奈潟山川井梨野阜岡知重賀都阪庫良歌取根山島口島川媛知岡賀崎本分崎児縄 道 川 山 島 2009年1月 2009年2月 2009年3月 2009年4月 2009年5月 2009年6月 2009年7月 2009年8月 2009年9月 2009年10月 2009年11月 2009年12月 2010年1月 2010年2月 2010年3月 2010年4月 2010年5月 2010年6月 2010年7月 2010年8月 2010年9月 2010年10月 2010年11月 2010年12月 2011年1月 2011年2月 2011年3月 2011年4月 2011年5月 2011年6月 2011年7月 2011年8月 2011年9月 2011年10月 2011年11月 2011年12月 2012年1月 2012年2月 2012年3月 2012年4月 2012年5月 2012年6月 2012年7月 2012年8月 2012年9月 2012年10月 2012年11月 2012年12月 2013年1月 2013年2月 2013年3月 2013年4月 2013年5月 2013年6月 2013年7月 2013年8月 2013年9月 2013年10月 2013年11月 2013年12月 2014年1月 2014年2月 2014年3月 2014年4月 2014年5月 2014年6月 2014年7月 2014年8月 完全失業率(%) <折れ線グラフについての諸注意> 1.折れ線グラフを描く際に用いる時系列データは、原則として等間隔である。 完全失業率の推移(男女計・季節調整値) 6 5.5 5 4.5 4 3.5 3 すべて1か月間隔 2009年1月 2009年4月 2009年7月 2009年10月 2010年1月 2010年4月 2010年7月 2010年10月 2011年1月 2011年4月 2011年7月 2011年10月 2012年1月 2012年4月 2012年7月 2012年10月 2013年1月 2013年2月 2013年3月 2013年4月 2013年5月 2013年6月 2013年7月 2013年8月 2013年9月 2013年10月 2013年11月 2013年12月 2014年1月 2014年2月 2014年3月 2014年4月 2014年5月 2014年6月 2014年7月 2014年8月 完全失業率(%) 時系列データは、その発生間隔によって、年次、四半期、月次、週次、日次などさま ざまなものがある。 たとえば、月次データの場合、データの間隔はすべて1月ずつであり、ある箇所だけ2 か月間隔や3か月間隔になったりしない。 完全失業率の推移(男女計・季節調整値) 6 5.5 5 4.5 4 3.5 3 3か月間隔 1か月間隔 (例外) 株や為替の動きの日次データは、営業日の関係上、土日(株は祝日も)を除 く毎日のデータとなる。 日経平均株価(週終値) 16,500 15,000 14,500 14,000 13,500 1月6日 1月13日 1月20日 1月27日 2月3日 2月10日 2月17日 2月24日 3月3日 3月10日 3月17日 3月24日 3月31日 4月7日 4月14日 4月21日 4月28日 5月5日 5月12日 5月19日 5月26日 6月2日 6月9日 6月16日 6月23日 6月30日 7月7日 7月14日 7月21日 7月28日 8月4日 8月11日 8月18日 8月25日 9月1日 9月8日 9月15日 9月22日 9月29日 2.折れ線グラフは、縦軸の 目盛のとり方によって、印象 が大きく変わる。 15,500 1月6日 1月13日 1月20日 1月27日 2月3日 2月10日 2月17日 2月24日 3月3日 3月10日 3月17日 3月24日 3月31日 4月7日 4月14日 4月21日 4月28日 5月5日 5月12日 5月19日 5月26日 6月2日 6月9日 6月16日 6月23日 6月30日 7月7日 7月14日 7月21日 7月28日 8月4日 8月11日 8月18日 8月25日 9月1日 9月8日 9月15日 9月22日 9月29日 1月6日 1月13日 1月20日 1月27日 2月3日 2月10日 2月17日 2月24日 3月3日 3月10日 3月17日 3月24日 3月31日 4月7日 4月14日 4月21日 4月28日 5月5日 5月12日 5月19日 5月26日 6月2日 6月9日 6月16日 6月23日 6月30日 7月7日 7月14日 7月21日 7月28日 8月4日 8月11日 8月18日 8月25日 9月1日 9月8日 9月15日 9月22日 9月29日 日経平均株価(週終値) 16,500 16,000 15,500 15,000 14,500 14,000 13,500 出典:Yahoo!ファイナンス 16,000 日経平均株価(週終値) 18,000 16,000 14,000 12,000 10,000 8,000 6,000 4,000 2,000 0 実質GDPの推移 <変化率> 2012年 517.5兆円 2013年 525.4兆円 なので、2013年の成長率は 525.4 − 517.5 × 100 ≒ 1.5 517.5 約1.5%となる。 520000 500000 480000 460000 440000 420000 年 出典:内閣府経済社会総合研究所『国民経済計算』 成長率の推移 6 4 2 0 -2 -4 -6 -8 年 2013 2012 2011 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 400000 1994 という式で定義されるものが、 変化率である。 前年の値を基準にしたり、前 期(月次データにおける前月 など)の値を基準にしたりし、 そこからの変化の割合をあ らわすものである。 実質GDPの年次データにお いて、前年を基準とした変化 率は、成長率といわれる。 成長率(%) 現在の値 − 基準値 変化率(%) = × 100 基準値 実質GDP(10億円) 540000 棒グラフは前述のように、クロスセクションデータ対 して用いるが、時系列データに用いられることも少な くない。 単位の異なる2つの時系列データを1つのグラフであら わすとき、折れ線グラフと棒グラフを重ね合わせて表 現することがよくおこなわれる。 出生数(千人) 出生数と合計特殊出生率の推移 合計特殊出生率 5.00 年間出生数 4.50 合計特殊出生率 4.00 (厚生労働省『平成25年 人口動態統計』より作成) 3 000 2 500 3.50 2 000 3.00 1 500 2.50 2.00 1 000 1.50 1.00 500 0.50 1947 1950 1953 1956 1959 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 2013 0.00 年次 2) 度数分布表とヒストグラム、度数折れ線 ⅰ) 度数分布表 質的変量であれば、それぞれに対応する観測値の数 (これを度数という)を数え、棒グラフにあらわすこ とができる。 日付 打者 チーム ○月○日 中田 翔 日本ハム △月△日 浅村 栄斗 西武 … … … 元のデータにおいてチーム名は 質的変量である。 チームごとに数を数える。 飛距離 120m 130m … チーム別本塁打数 (2014年9月30日終了時点、パ・リーグ) 本塁打数(本) チーム 本塁打数 ソフトバンク 95 オリックス 107 日本ハム 118 ロッテ 94 楽天 77 西武 122 度数 140 120 100 80 60 40 20 0 では、連続変量もこのようにできるであろうか? ⇒ 連続変量の場合、とりうる値が多く、それぞれに対 応する観測値の数は非常に小さい。(離散変量でもと りうる値が多ければ、このようなことが起こる) 質的変量の時と同じようにおこなうと、度数が1のも のばかりになってしまう。 身長の棒グラフ(男子) 度数 出席番号 身長 1 170.3 3 168.2 4 171.0 5 175.4 6 165.7 9 177.1 10 165.0 1 178 176 177 175 175 173 174 172 173 171 171 169 170 168 169 166 167 165 166 0 このような棒グラフでは、集団の特徴がよくわからな い。 そこで、データをいくつかの階級に分け、その階級に入る度数を 表の形でまとめた度数分布表を作成する必要がある。 サッカー日本代表 ブラジルW杯ベンチ入りメンバー 氏名 川島 永嗣 西川 周作 権田 修一 今野 泰幸 伊野波 雅彦 長友 佑都 森重 真人 内田 篤人 吉田 麻也 酒井 宏樹 酒井 高徳 遠藤 保仁 長谷部 誠 青山 敏弘 山口 蛍 大久保 嘉人 岡崎 慎司 本田 圭佑 香川 真司 清武 弘嗣 柿谷 曜一朗 斎藤 学 大迫 勇也 身長(cm) 体重(kg) 185 82 183 81 187 85 178 73 179 74 170 68 183 76 176 62 189 78 185 70 176 74 178 75 177 72 174 73 173 72 170 73 174 76 182 74 172 64 172 66 177 68 169 68 182 73 階 級 以上 165 170 175 180 185 未満 - 170 175 180 185 190 階級値 度数 167.5 172.5 177.5 182.5 187.5 計 † その階級を代表する値 を階級値という。階級の上 限と下限をたして2で割った 値が用いられることが多い。 1 7 7 4 4 23 ⅱ) ヒストグラム・度数折れ線 • 度数分布表を棒グラフであらわしたものをヒストグラムといい、 それぞれの棒は間隔をつめて描かれる。これは階級と階級 の間が連続していることによる。 • 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ で結んだものである。 身長のヒストグラム(20歳男子、107人) 20 8 7 6 5 4 3 2 1 0 15 度数 軸ラベル サッカー日本代表の身長 10 5 0 167.5 172.5 177.5 軸ラベル 182.5 187.5 159 161 163 165 167 169 171 173 175 177 179 181 183 階級値 度数分布表の階級の幅は原則として均一にする。ただ し、貯蓄現在高のようにすべて均一にすることによっ て、度数が極めて小さくなる場合には、一部の階級幅 を広げることもある。 † 質的変量や離散変量 の場合は、とりうる値1つ 1つが階級となる。 ただし、年収・貯蓄のよう にとり得る値が多い場合 には、連続変量と同様に 階級を設定する。 度数分布表の階級幅、階級の上限と下限の値の取り方 によってヒストグラムは大きく変化する。 体重のヒストグラム(階級幅2kg) 体重のヒストグラム(階級幅5kg) 7 12 6 10 8 4 度数 度数 5 3 6 2 4 1 2 0 0 63 65 67 69 71 73 75 77 79 81 83 85 62.5 67.5 階級値 72.5 77.5 82.5 87.5 階級値 体重のヒストグラム(階級幅3kg(a)) 体重のヒストグラム(階級幅3kg(b)) 10 7 6 8 6 度数 度数 5 4 4 3 2 2 1 0 0 61.5 64.5 67.5 70.5 73.5 階級値 76.5 79.5 82.5 85.5 62.5 65.5 68.5 71.5 74.5 階級値 77.5 80.5 83.5 ⅲ) 幹葉表示 幹葉表示(みきはひょうじ、かんようひょうじ)とは、簡 易的なヒストグラムといえる。 例えば、テストの点数のような2ケタの数値であれば、 十の位の数を幹、一の位の数を葉として次ページのよ うに表示する。 この表示によって、集団の分布がわかる。 度数分布表を作成するための予備的作業として用いる ことも可能である。 右のデータはある クラス38人分のテ ストの点数のデー タである。 このデータを幹葉 表示してみる。 0 1 2 3 4 5 6 7 8 9 39 63 44 44 22 69 69 66 67 78 34 33 7 7 0 0 0 0 0 4 6 3 3 6 7 7 4 8 4 3 9 9 8 3 5 8 7 7 1 3 4 4 3 6 9 0 予備的な幹葉表示 60 88 20 54 43 73 17 34 20 20 63 69 46 47 20 30 58 87 47 75 36 7 27 21 60 23 0 1 2 3 4 5 6 7 8 9 7 7 0 0 3 4 0 3 7 0 3 4 8 0 5 8 0 0 1 2 3 7 4 4 6 9 4 6 7 7 3 3 6 7 9 9 9 8 最終的な幹葉表示 <特徴と注意点> このような表示を用いることができるのは、とりうる 値が2ケタの数値が中心であり、せいぜい200までであ ろう。たとえば136という数値の場合、13を幹、6を葉 にすればよい。 小数点以下をとる場合は、1ケタまでとなり、整数部分 はせいぜい20までであろう。たとえば、7.2という数値 の場合、7を幹、2を葉として表示する。 0 1 2 3 : 9 10 11 12 13 0 1 2 : 6 7 8 9 10 6 2 幹葉表示は、度数分布表・ヒストグラムと異なり、階 級の幅を2cmとか5cmとかにすることは難しい。10の 倍数の階級幅のとき(1番得意なのは1のとき)、便利であ る。 例えば、身長を階級幅5cmの度数分布表にまとめると きは、「正」の字を書くなどして、予備的な作業をお こなうことは可能である。 以上 160 165 170 175 未満 165 170 175 180 3) 円グラフ、帯グラフ 円グラフは相対的な割合を表現するときに用いられる。 帯グラフは相対的な割合が、時間とともにどのように 変化していくかなどを表現するときに用いられる。 学年別の割合 年齢3階級別総人口の推移 年 1930 20% 1950 40% 2年 3年 4年 0-14歳 1970 15-64歳 65歳- 1990 2010 40% 0% 10人の学生の例から作成 50% 100% 出典:総務省統計局『国勢調査』 1) 代表値(中心的傾向) ある集団についてのデータ(例えば50人のクラスの身 長など)があるとき、集団の特徴をあらわすには、そ の中心的傾向を示す数値が必要となる。 中心的傾向をあらわす数値として、 › 算術平均 › メディアン(中央値) › モード(最頻値) の3種類がある。 ⅰ) 算術平均 算術平均 = データの合計 ÷ データ数 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑥= = 𝑛 𝑛 𝑖=1 𝑥𝑖 𝑛 (例) 10人のテストの点数 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600 𝑥= = = 60 10 10 ⅱ) メディアン(中央値、中位数) メディアン → データを大きさの順に並べた ときに真ん中にくる値。データ数が偶数のとき は真ん中の2つの値を足して2で割る。 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 点数の低い順に並べ替え 10 20 50 60 60 70 80 80 80 90 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン ⅲ) モード(最頻値) モード - データの中で最も多く出てくる 値。10人のテストの点数の例では 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 80点が3人と最も多い。モードは80となる。 † データのとりうる値が多いとき、データの最も多く出てくるものではな く、度数分布表にしたときに、最も度数の多い階級の階級値をモード と考える。 ⅳ) 各代表値の特徴 下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。 A B 20 C 20 D 22 E 28 30 仮想データ • この5人の収入の算術平均は 20 + 20 + 22 + 28 + 30 120 𝑥= = = 24 5 5 • メディアンは、この場合、小さい順に並んでるので • モードは、 • よって、算術平均は24、メディアンは22、モードは20となる。 次に、裕福なFさんがこの5人に加わったとする。 A B 20 C 20 D 22 E 28 F 30 60 仮想データ • この6人の収入の算術平均は 𝑥= 20 + 20 + 22 + 28 + 30 + 60 180 = = 30 6 6 • メディアンは、真ん中の2人を足して2で割るので、(22+28)÷2=25 • モードは、 • よって、算術平均は30、メディアンは25、モードは20となる。 次に、より裕福なGさんがこの6人に加わったとする。 A B 20 C 20 D 22 E 28 F 30 60 G 1220 仮想データ • この7人の収入の算術平均は 20 + 20 + 22 + 28 + 30 + 60 + 1220 1400 𝑥= = = 200 7 7 • メディアンは、真ん中である。 • モードは、 • よって、算術平均は200、メディアンは28、モードは20となる。 別の例もみてみよう。 下の図は貯蓄現在高階級別の世帯分布である。 • 貯蓄現在高が算術平 均(1739万円)より低い 世帯は全世帯の3分の 2におよぶ。ほとんどの 世帯はメディアンである 1023万円ほどの貯蓄も なく、200万円未満の貯 蓄しかない(ここがモー ドである)。 • 少数の大金持ちと多数 の庶民がいるため、こ のようなことがおこる。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/05.htm) 度数 右にゆがんだ分布の例 ゆがんだ分布であれば、算術平均とメ ディアンは一致しない。(モードも一致 しない) 左右対称な分布であれば、算術平均と メディアンは一致する。また、分布の山 が1つであれば、モードもこれに一致す る。 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 階級 45 40 35 30 25 20 15 10 5 0 左右対称な分布の例(2) 度数 度数 左右対称な分布の例(1) 1 2 3 4 5 6 7 8 階級 9 10 11 12 13 14 15 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 階級 9 10 11 12 13 14 15 <正規分布> 算術平均、メディアン、モードが等しくなる、山が1つの左 右対称の分布の中に、つりがね型†をした正規分布といわれ るものがある。 この分布は、数学的に非常に取り扱いやすい性質を持ってお り、身長や知能指数などがこの分布にしたがうといわれてい る。テストの点数もこのような分布になることが理想といわ れている。 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 3 2.7 2.4 2.1 1.8 1.5 1.2 0.9 0.6 0.3 0 -0.3 -0.6 -0.9 -1.2 -1.5 -1.8 -2.1 -2.4 -2.7 -3 0 † 「つりがね型」は、bell curve の訳であり、日本の寺院にあるつりがねの形では なく、教会にあるベルの形をしている。 算術平均は少数の極端な値が含まれるとき、 その集団の正しい代表値とならないことがあ る。メディアンの方が少数の極端な値の影響 を受けづらい。 しかし、貯蓄現在高のように分布がゆがんで いる場合には、メディアンでも集団の正しい 代表値とはいえない場合もある。(この場合 はモードが適切か) しかし、算術平均は数学的な扱いやすさから、 代表値として非常に良く用いられている。 算術平均をうのみにしないようにしよう! 2) 散布度(散らばりの傾向) 教員A 教員B • チャイムの5分後に必ず教室 にくる。 • チャイムと同時に教室にくるこ ともあれば、10分以上遅れる こともある。 • 2人の教員はともに平均してチャイムの5分後に教室にくる • 2人の教員の特徴を表現するために、平均だけでは不十分。 →散らばりの尺度の必要性 • 散らばりの傾向をあらわす尺度として – 分散、標準偏差 – レンジ(範囲)、四分位範囲、四分位偏差 などがある。 ⅰ) 分散 分散=偏差2乗和÷データ数 偏差2乗和 - 個々のデータから算術平均を引いたもの (偏差)を2乗して、すべて加えたもの。 𝑠2 = 2 𝑥1 − 𝑥 + 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥 𝑛 𝑛 𝑖=1 2 = 𝑥𝑖 − 𝑥 𝑛 2 10人のテストの点数の例では 2 𝑠 = 60 − 60 2 + 90 − 60 6400 = = 640 10 2 + 80 − 60 2 + 50 − 60 2 + 70 − 60 2 + 10 − 60 10 2 + 60 − 60 2 + 80 − 60 2 + 20 − 60 2 + 80 − 60 2 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 -40 20 400 1600 400 算術平均60を引く 偏差 0 30 20 -10 10 -50 0 20 2乗を求める 0 900 400 100 100 2500 0 合計を求める 6400 データ数(10)で割る 640 分散 ⅱ) 標準偏差 標準偏差 ⇒ 𝑠= 分散の平方根 𝑠2 = 𝑛 𝑖=1 𝑥𝑖 − 𝑥 𝑛 2 10人のテストの点数の例では 𝑠 = 640 =25.298… ※ 2人の教員が教室に来る時間の例 回 教員A 教員B 1 4.5 0 2 5.3 6 3 4.8 4 4 5 5 5 5.5 11 (単位:分) 6 4.7 4 7 5.2 8 8 4.8 5 9 4.9 1 10 5.3 6 教員A 𝑥𝐴 = 𝑠𝐴2 = = 4.5 − 5 −0.5 2 2 4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3 10 + 5.3 − 5 + 0.3 2 2 + −0.2 + 4.8 − 5 2 + 0 2 2 + 5−5 + 0.5 2 2 + 5.5 − 5 + −0.3 10 2 + 0.2 2 + 4.7 − 5 10 2 + −0.2 = 0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09 10 = 0.9 = 0.09 10 𝑠𝐴 = 0.09 =0.3 2 2 + 5.2 − 5 + −0.1 2 2 + 4.8 − 5 + 0.3 2 = 2 50 10 =5 + 4.9 − 5 2 + 5.3 − 5 2 教員B 𝑥𝐵 = 0−5 + 6−5 2 + 4−5 2 + 5−5 2 + 11 − 5 2 50 10 = + 4−5 2+ 8−5 = 10 2 2 2 2 2 2 2 −5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2 = 10 25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1 = 10 90 = =9 10 𝑠𝐵2 2 0+6+4+5+11+4+8+5+1+6 10 2 =5 + 5−5 2 + 1−5 2 + 6−5 𝑠𝐵 = 9 =3 𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわかる。 標準偏差についても、𝑠𝐴 < 𝑠𝐵 と教員Bの方が大きくなる。 2 <標準化と標準正規分布> A君は、あるテストで英語が90点、数学が65点であっ た。 ⇒ 英語の方が数学より成績が良かった?? 英語の平均点が80点、数学の平均点が50点だった。 ⇒ 英語は平均点より10点高い、数学は平均点より15点 高い。数学の方が良い?? 英語と数学のどちらが成績が良かったのだろうか? ⇒ 標準化の必要性(これを応用したものが偏差値) 平均や分散の異なるものを比較するとき、平均や分散をそろ え、その相対的な位置によって比較しようというのが標準化 の考えである。 標準化は次のような変換である。このようにして求められた 変量を標準化変量(zスコア) 𝑥𝑖 − 𝑥 𝑧𝑖 = 𝑠 英語が平均80点、標準偏差10であり、数学が平均50点、標 準偏差20であったとする。 この例で、 英語は 90−80 10 =1 数学は 65−50 20 = 0.75 となり英語の方が成績が良いことになる。 zスコアの大小で、平均や分散の異なるものを比較する ことができる。zスコアは算術平均0、標準偏差1の変量 であるが、これを算術平均50、標準偏差10の変量に変 換したものが偏差値(Tスコア)である。(算術平均50、標 準偏差10は100点満点のテストの点数のように見える) 偏差値はzスコアを次のように変換する。 𝑇𝑖 = 50 + 10 × 𝑧𝑖 先ほどの例では、 英語は 50 + 10 × 1 = 60 数学は 50 + 10 × 0.75 = 57.5 となる。 ⅲ) レンジ(範囲) • レンジ ⇒ データの取りうる範囲 レンジ = 最大値 - 最小値 • 10人のテストの点数の例では 90 - 10=80 ⅳ) 四分位範囲、四分位偏差 データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3と する。 このとき、四分位範囲、四分位偏差は次式で定義される。 四分位範囲 = 𝑞3 − 𝑞1 𝑞3 − 𝑞1 四分位偏差 = 2 最小値 q1 q2 q3 最大値 (例)9人のテストの点数が次のようになって いたとする。 出席番号 点数 1 60 2 90 3 80 4 50 5 6 7 8 9 70 10 60 80 20 点数の低い順に並べ替え 10 20 50 60 60 q1 q2 最小値 70 80 q3 80 90 最大値 (メディアン) q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値 四分位範囲 = 80 − 50 = 30 四分位偏差 = 80 − 50 30 = = 15 2 2 <箱ひげ図> 最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。 下の図は、9人のテストの点数を箱ひげ図に表した1例である。 9人のテストの点数の箱ひげ図 100 最大値 90 q3(第3四分位点) 80 70 60 中央値 50 q1(第1四分位点) 40 30 20 10 0 ※ 箱ひげ図は横向きに描かれることもある。 最小値
© Copyright 2025 ExpyDoc