Ⅰ 表・グラフによる記述 1) 折れ線グラフと棒グラフ 2) 度数分布表とヒストグラム、度数折れ線 ⅰ) 度数分布表 ⅱ) ヒストグラムと度数折れ線 ⅲ) 幹葉表示 3) 円グラフ、帯グラフ Ⅱ 特性値による記述 1) 代表値(中心的傾向) ⅰ) ⅱ) ⅲ) ⅳ) 算術平均 メディアン(中央値) モード(最頻値) 各代表値の特徴 2) 散布度(散らばりの傾向) ⅰ) ⅱ) ⅲ) ⅳ) 分散 標準偏差 レンジ 四分位偏差 データのまとめ方には 1.表・グラフによる記述(視覚的表現) 2.特性値による記述(数値的表現) がある。 表・グラフによる記述は、データの特徴を一目 でとらえやすくするためにおこなわれる。 特性値による記述は、データの特徴をまとめ、 それを用いた分析をおこなうことが中心的な役 割である。 1) 折れ線グラフと棒グラフ ともにさまざまなデータの表現に利用される。 折れ線グラフは、主に時系列データ(時間の順序によって並べた データ)に利用される。棒グラフは時系列データにもクロスセク ションデータ(1時点におけるデータを何らかの項目でまとめたも の)にも利用される。 完全失業率の推移(男女計・季節調整値) チーム別本塁打数 (2011年9月29日現在、パ・リーグ) 本塁打数(本) 100 2007年01月 2007年03月 2007年05月 2007年07月 2007年09月 2007年11月 2008年01月 2008年03月 2008年05月 2008年07月 2008年09月 2008年11月 2009年01月 2009年03月 2009年05月 2009年07月 2009年09月 2009年11月 2010年01月 2010年03月 2010年05月 2010年07月 2010年09月 2010年11月 2011年01月 (%) 6.0 5.5 5.0 4.5 4.0 3.5 3.0 80 60 40 20 0 年・月 出典:総務省統計局『労働力調査』 出典:日本野球機構オフィシャルサイト <時系列データとクロスセクションデータ> (例) 交通事故死亡者数の推移(中国地方5県) (データ出典: 警察庁「交通事故死者数について」) (単位:人) 年 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 鳥取県 61 79 61 51 45 39 34 30 37 42 島根県 72 73 74 47 69 46 42 42 33 31 岡山県 190 169 175 159 148 144 115 114 107 109 広島県 251 202 187 189 187 165 132 128 142 127 鳥取県の交通事故死亡者数の年次推移 → 時系列データ 2010年の県別交通事故死亡者数 → クロスセクションデータ 山口県 152 141 129 106 116 108 115 91 108 96 都道府県別高等学校数 (2008年5月1日現在) クロスセクション データには、通常 棒グラフを用いる。 500 450 400 350 300 250 200 150 100 50 0 北青岩宮秋山福茨栃群埼千東神新富石福山長岐静愛三滋京大兵奈和鳥島岡広山徳香愛高福佐長熊大宮鹿沖 海森手城田形島城木馬玉葉京奈潟山川井梨野阜岡知重賀都阪庫良歌取根山島口島川媛知岡賀崎本分崎児縄 山 道 川 島 出典:文部科学省『学校基本調査』 右の図は上の図 を折れ線グラフで 描きなおしたもの であるが、隣り合 う県†どうしを線で 結んでも、そこに 意味はない。 †都道府県コードの順 なので、必ずしも隣接 してはいない。 都道府県別高等学校数 (2008年5月1日現在) 500 450 400 350 300 250 200 150 100 50 0 ??? 北青岩宮秋山福茨栃群埼千東神新富石福山長岐静愛三滋京大兵奈和鳥島岡広山徳香愛高福佐長熊大宮鹿沖 海森手城田形島城木馬玉葉京奈潟山川井梨野阜岡知重賀都阪庫良歌取根山島口島川媛知岡賀崎本分崎児縄 山 道 川 島 1.折れ線グラフを描く際 に用いる時系列データは、 原則として等間隔である。 (%) 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2007年01月 2007年02月 2007年03月 2007年04月 2007年05月 2007年06月 2007年07月 2007年08月 2007年09月 2007年10月 2007年11月 2007年12月 2008年01月 2008年02月 2008年03月 2008年04月 2008年05月 2008年06月 2008年07月 2008年08月 2008年09月 2008年10月 2008年11月 2008年12月 2009年01月 2009年02月 2009年03月 2009年04月 2009年05月 2009年06月 2009年07月 2009年08月 2009年09月 2009年10月 2009年11月 2009年12月 2010年01月 2010年02月 2010年03月 2010年04月 2010年05月 2010年06月 2010年07月 2010年08月 2010年09月 2010年10月 2010年11月 2010年12月 2011年01月 2011年02月 <折れ線グラフについての諸注意> 完全失業率の推移(男女計・季節調整値) 年・月 時系列データは、その発生間隔によって、年次、四半期、月次、週次、日次などさま ざまなものがある。 たとえば、月次データの場合、データの間隔はすべて1月ずつであり、ある箇所だけ2 か月間隔や3か月間隔になったりしない。 (例外) 株や為替の動きの日次データは、営業日の関係上、土日(株は祝日も)を除 く毎日のデータとなる。 日経平均株価(週終値) 10,000 9,500 9,000 8,500 1月3日 1月10日 1月17日 1月24日 1月31日 2月7日 2月14日 2月21日 2月28日 3月7日 3月14日 3月21日 3月28日 4月4日 4月11日 4月18日 4月25日 5月2日 5月9日 5月16日 5月23日 5月30日 6月6日 6月13日 6月20日 6月27日 7月4日 7月11日 7月18日 7月25日 8月1日 8月8日 8月15日 8月22日 8月29日 9月5日 9月12日 2.折れ線グラフは、縦軸の 目盛のとり方によって、印象 が大きく変わる。 11,000 1月3日 1月10日 1月17日 1月24日 1月31日 2月7日 2月14日 2月21日 2月28日 3月7日 3月14日 3月21日 3月28日 4月4日 4月11日 4月18日 4月25日 5月2日 5月9日 5月16日 5月23日 5月30日 6月6日 6月13日 6月20日 6月27日 7月4日 7月11日 7月18日 7月25日 8月1日 8月8日 8月15日 8月22日 8月29日 9月5日 9月12日 1月3日 1月10日 1月17日 1月24日 1月31日 2月7日 2月14日 2月21日 2月28日 3月7日 3月14日 3月21日 3月28日 4月4日 4月11日 4月18日 4月25日 5月2日 5月9日 5月16日 5月23日 5月30日 6月6日 6月13日 6月20日 6月27日 7月4日 7月11日 7月18日 7月25日 8月1日 8月8日 8月15日 8月22日 8月29日 9月5日 9月12日 日経平均株価(週終値) 12,000 10,000 8,000 6,000 4,000 2,000 0 出典:Yahoo!ファイナンス 10,500 日経平均株価(週終値) 11,000 10,500 10,000 9,500 9,000 8,500 実質GDPの推移 <変化率> という式で定義されるものが、 変化率である。 前年の値を基準にしたり、前 期(月次データにおける前月 など)の値を基準にしたりし、 そこからの変化の割合をあ らわすものである。 実質GDPの年次データにお いて、前年を基準とした変化 率は、成長率といわれる。 2009年 519兆円 2010年 540兆円 なので、2010年の成長率は 540 519 100 4.04 519 約4.0%となる。 実質GDP(10億円) 現在の値 基準値 100 基準値 550000 500000 450000 400000 350000 300000 250000 200000 1980198219841986198819901992199419961998200020022004200620082010 年 出典:内閣府経済社会総合研究所『国民経済計算』 成長率の推移 8 6 4 成長率(%) 変化率(%) 600000 2 0 -2 -4 -6 -8 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 2007 2009 年 棒グラフは前述のように、クロスセクションデータ対 して用いるが、時系列データに用いられることも少な くない。 単位の異なる2つの時系列データを1つのグラフであら わすとき、折れ線グラフと棒グラフを重ね合わせて表 現することがよくおこなわれる。 出生数と合計特殊出生率の推移 出生数(千人) (厚生労働省『平成21年 人口動態統計』より作成) 3 000 合計特殊出生率 年間出生数 2 500 合計特殊出生率 2 000 1 500 1 000 1947 1950 1953 1956 1959 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 500 年次 5.00 4.50 4.00 3.50 3.00 2.50 2.00 1.50 1.00 0.50 0.00 2) 度数分布表とヒストグラム、度数折れ線 ⅰ) 度数分布表 質的変量であれば、それぞれに対応する観測値の数 (これを度数という)を数え、棒グラフにあらわすこ とができる。 日付 打者 チーム 飛距離 ○月○日 多村 仁志 ソフトバンク 120m △月△日 中村 剛也 西武 130m … … … … 元のデータにおいてチーム名は 質的変量である。 チームごとに数を数える。 チーム別本塁打数 (2011年9月29日現在、パ・リーグ) チーム 本塁打数 ソフトバンク 86 日本ハム 80 オリックス 70 西武 94 楽天 52 ロッテ 40 本塁打数(本) 100 80 60 40 20 0 度数 では、連続変量もこのようにできるであろうか? ⇒ 連続変量の場合、とりうる値が多く、それぞれに対 応する観測値の数は非常に小さい。(離散変量でもと りうる値が多ければ、このようなことが起こる) 質的変量の時と同じようにおこなうと、度数が1のも のばかりになってしまう。 身長の棒グラフ(男子) 度数 出席番号 身長 1 170.3 3 168.2 4 171.0 5 175.4 6 165.7 9 177.1 10 165.0 1 178 176 177 175 175 173 174 172 173 171 171 169 170 168 169 166 167 165 166 0 このような棒グラフでは、集団の特徴がよくわからな い。 そこで、データをいくつかの階級に分け、その階級に入る度数を 表の形でまとめた度数分布表を作成する必要がある。 なでしこジャパン ロンドン五輪予選ベンチ入りメンバー 氏名 福元 美穂 海堀 あゆみ 近賀 ゆかり 矢野 喬子 上尾野辺 めぐみ 岩清水 梓 鮫島 彩 田中 明日菜 熊谷 紗希 澤 穂希 宮間 あや 川澄 奈穂美 阪口 夢穂 宇津木 瑠美 安藤 梢 丸山 桂里奈 大野 忍 永里 優季 永里 亜紗乃 高瀬 愛実 身長(cm) 体重(kg) 165 66 170 64 161 53 164 55 157 54 162 54 162 53 164 52 171 59 164 55 157 50 157 50 165 58 168 63 164 57 163 56 154 50 168 60 165 58 165 59 階 級 以上 150 155 160 165 170 未満 - 155 160 165 170 175 階級値 度数 152.5 157.5 162.5 167.5 172.5 計 † その階級を代表する値 を階級値という。階級の上 限と下限をたして2で割った 値が用いられることが多い。 1 3 8 6 2 20 ⅱ) ヒストグラム・度数折れ線 • 度数分布表を棒グラフであらわしたものをヒストグラムといい、 それぞれの棒は間隔をつめて描かれる。これは階級と階級 の間が連続していることによる。 • 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ で結んだものである。 身長のヒストグラム(20歳男子、107人) 20 9 8 7 6 5 4 3 2 1 0 15 度数 度数 なでしこジャパンの身長 10 5 0 152.5 157.5 162.5 階級値 167.5 172.5 159 161 163 165 167 169 171 173 175 177 179 181 183 階級値 度数分布表の階級の幅は原則として均一にする。ただ し、貯蓄現在高のようにすべて均一にすることによっ て、度数が極めて小さくなる場合には、一部の階級幅 を広げることもある。 † 質的変量や離散変量 の場合は、とりうる値1つ 1つが階級となる。 ただし、年収・貯蓄のよう にとり得る値が多い場合 には、連続変量と同様に 階級を設定する。 度数分布表の階級幅、階級の上限と下限の値の取り方 によってヒストグラムは大きく変化する。 体重のヒストグラム(階級幅5kg) 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 度数 度数 体重のヒストグラム(階級幅2kg) 51 53 55 57 59 61 63 65 67 9 8 7 6 5 4 3 2 1 0 62.5 67.5 階級値 77.5 階級値 体重のヒストグラム(階級幅3kg(a)) 体重のヒストグラム(階級幅3kg(b)) 7 6 5 4 3 2 1 0 6 5 4 度数 度数 72.5 3 2 1 51.5 54.5 57.5 60.5 階級値 63.5 66.5 0 49.5 52.5 55.5 58.5 階級値 61.5 64.5 67.5 ⅲ) 幹葉表示 幹葉表示(みきはひょうじ、かんようひょうじ)とは、簡 易的なヒストグラムといえる。 例えば、テストの点数のような2ケタの数値であれば、 十の位の数を幹、一の位の数を葉として次ページのよ うに表示する。 この表示によって、集団の分布がわかる。 度数分布表を作成するための予備的作業として用いる ことも可能である。 右のデータはある クラス38人分のテ ストの点数のデー タである。 このデータを幹葉 表示してみる。 0 1 2 3 4 5 6 7 8 9 39 63 44 44 22 69 69 66 67 78 34 33 7 7 0 0 0 0 0 4 6 3 3 6 7 7 4 8 4 3 9 9 8 3 5 8 7 7 1 3 4 4 3 6 9 0 予備的な幹葉表示 60 88 20 54 43 73 17 34 20 20 63 69 46 47 20 30 58 87 47 75 36 7 27 21 60 23 0 1 2 3 4 5 6 7 8 9 7 7 0 0 3 4 0 3 7 0 3 4 8 0 5 8 0 0 1 2 3 7 4 4 6 9 4 6 7 7 3 3 6 7 9 9 9 8 最終的な幹葉表示 <特徴と注意点> このような表示を用いることができるのは、とりうる 値が2ケタの数値が中心であり、せいぜい200までであ ろう。たとえば136という数値の場合、13を幹、6を葉 にすればよい。 小数点以下をとる場合は、1ケタまでとなり、整数部分 はせいぜい20までであろう。たとえば、7.2という数値 の場合、7を幹、2を葉として表示する。 0 1 2 3 : 9 10 11 12 13 0 1 2 : 6 7 8 9 10 6 2 幹葉表示は、度数分布表・ヒストグラムと異なり、階 級の幅を2cmとか5cmとかにすることは難しい。10の 倍数の階級幅のとき(1番得意なのは1のとき)、便利であ る。 例えば、身長を階級幅5cmの度数分布表にまとめると きは、「正」の字を書くなどして、予備的な作業をお こなうことは可能である。 以上 160 165 170 175 未満 165 170 175 180 3) 円グラフ、帯グラフ 円グラフは相対的な割合を表現するときに用いられる。 帯グラフは相対的な割合が、時間とともにどのように 変化していくかなどを表現するときに用いられる。 学年別の割合 年齢3階級別総人口の推移 年 1930 20% 1950 40% 2年 3年 4年 0-14歳 15-64歳 65歳- 1970 1990 2005 40% 0% 10人の学生の例から作成 20% 40% 60% 80% 100% 出典:総務省統計局『国勢調査』 1) 代表値(中心的傾向) ある集団についてのデータ(例えば50人のクラスの身 長など)があるとき、集団の特徴をあらわすには、そ の中心的傾向を示す数値が必要となる。 中心的傾向をあらわす数値として、 › 算術平均 › メディアン(中央値) › モード(最頻値) の3種類がある。 ⅰ) 算術平均 算術平均 = データの合計 ÷ データ数 n x x xn x 1 2 n x i 1 i n (例) 10人のテストの点数 出席番号 点数 x 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 60 90 80 50 70 10 60 80 20 80 600 60 10 10 ⅱ) メディアン(中央値、中位数) メディアン → データを大きさの順に並べた ときに真ん中にくる値。データ数が偶数のとき は真ん中の2つの値を足して2で割る。 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 点数の低い順に並べ替え 10 20 50 60 60 70 80 80 80 90 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン ⅲ) モード(最頻値) モード - データの中で最も多く出てくる 値。10人のテストの点数の例では 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 80点が3人と最も多い。モードは80となる。 † データのとりうる値が多いとき、データの最も多く出てくるものではな く、度数分布表にしたときに、最も度数の多い階級の階級値をモード と考える。 ⅳ) 各代表値の特徴 下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。 A B 20 C 20 D 22 E 28 30 仮想データ • この5人の収入の算術平均は 20 20 22 28 30 120 x 24 5 5 • メディアンは、この場合、小さい順に並んでるので • モードは、 • よって、算術平均は24、メディアンは22、モードは20となる。 次に、裕福なFさんがこの5人に加わったとする。 A B 20 C 20 D 22 E 28 F 30 60 仮想データ • この6人の収入の算術平均は 20 20 22 28 30 60 180 x 30 6 6 • メディアンは、真ん中の2人を足して2で割るので、(22+28)÷2=25 • モードは、 • よって、算術平均は30、メディアンは25、モードは20となる。 次に、より裕福なGさんがこの6人に加わったとする。 A B 20 C 20 D 22 E 28 F 30 60 G 1220 仮想データ • この7人の収入の算術平均は 20 20 22 28 30 60 1220 1400 x 200 7 7 • メディアンは、真ん中である。 • モードは、 • よって、算術平均は200、メディアンは28、モードは20となる。 別の例もみてみよう。 下の図は貯蓄現在高階級別の世帯分布である。 • 貯蓄現在高が算術平 均(1657万円)より低い 世帯は全世帯の3分の 2におよぶ。ほとんどの 世帯はメディアンである 995万円ほどの貯蓄も なく、200万円未満の貯 蓄しかない(ここがモー ドである)。 • 少数の大金持ちと多数 の庶民がいるため、こ のようなことがおこる。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1) 度数 右にゆがんだ分布の例 ゆがんだ分布であれば、算術平均とメ ディアンは一致しない。(モードも一致 しない) 左右対称な分布であれば、算術平均と メディアンは一致する。また、分布の山 が1つであれば、モードもこれに一致す る。 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 階級 45 40 35 30 25 20 15 10 5 0 左右対称な分布の例(2) 度数 度数 左右対称な分布の例(1) 1 2 3 4 5 6 7 8 階級 9 10 11 12 13 14 15 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 階級 9 10 11 12 13 14 15 <正規分布> 算術平均、メディアン、モードが等しくなる、山が1つの左 右対称の分布の中に、つりがね型†をした正規分布といわれ るものがある。 この分布は、数学的に非常に取り扱いやすい性質を持ってお り、身長や知能指数などがこの分布にしたがうといわれてい る。テストの点数もこのような分布になることが理想といわ れている。 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 3 2.7 2.4 2.1 1.8 1.5 1.2 0.9 0.6 0.3 0 -0.3 -0.6 -0.9 -1.2 -1.5 -1.8 -2.1 -2.4 -2.7 -3 0 † 「つりがね型」は、bell curve の訳であり、日本の寺院にあるつりがねの形では なく、教会にあるベルの形をしている。 算術平均は少数の極端な値が含まれるとき、 その集団の正しい代表値とならないことがあ る。メディアンの方が少数の極端な値の影響 を受けづらい。 しかし、貯蓄現在高のように分布がゆがんで いる場合には、メディアンでも集団の正しい 代表値とはいえない場合もある。(この場合 はモードが適切か) しかし、算術平均は数学的な扱いやすさから、 代表値として非常に良く用いられている。 算術平均をうのみにしないようにしよう! 2) 散布度(散らばりの傾向) 教員A 教員B • チャイムの5分後に必ず教室 にくる。 • チャイムと同時に教室にくるこ ともあれば、10分以上遅れる こともある。 • 2人の教員はともに平均してチャイムの5分後に教室にくる • 2人の教員の特徴を表現するために、平均だけでは不十分。 →散らばりの尺度の必要性 • 散らばりの傾向をあらわす尺度として – 分散、標準偏差 – レンジ(範囲)、四分位偏差 などがある。 ⅰ) 分散 分散=偏差2乗和÷データ数 偏差2乗和 - 個々のデータから算術平均を引いたもの (偏差)を2乗して、すべて加えたもの。 n ( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2 s n 2 (x x) i 1 2 i n 10人のテストの点数の例では (60 60)2 (90 60)2 (80 60)2 (50 60)2 (70 60)2 (10 60)2 (60 60)2 (80 60)2 (20 60)2 (80 60)2 s 10 2 6400 640 10 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 -40 20 400 1600 400 算術平均60を引く 偏差 0 30 20 -10 10 -50 0 20 2乗を求める 0 900 400 100 100 2500 0 合計を求める 6400 データ数(10)で割る 640 分散 ⅱ) 標準偏差 標準偏差 ⇒ 分散の平方根 n s s2 2 ( x x ) i i 1 n 10人のテストの点数の例では s 640 25.298 ※ 2人の教員が教室に来る時間の例 回 教員A 教員B 1 4.5 0 2 5.3 6 3 4.8 4 4 5 5 5 5.5 11 (単位:分) 6 4.7 4 7 5.2 8 8 4.8 5 9 4.9 1 10 5.3 6 教員A xA 4.5 5.3 4.8 5 5.5 4.7 5.2 4.8 4.9 5.3 50 5 10 10 (4.5 5) 2 (5.3 5) 2 (4.8 5) 2 (5 5) 2 (5.5 5) 2 (4.7 5) 2 (5.2 5) 2 (4.8 5) 2 (4.9 5) 2 (5.3 5) 2 10 2 2 2 2 2 2 2 (0.5) (0.3) (0.2) (0) (0.5) (0.3) (0.2) (0.2) 2 (0.1) 2 (0.3) 2 10 0.25 0.09 0.04 0 0.25 0.09 0.04 0.04 0.01 0.09 10 0.9 0.09 10 s A2 sA 0.09 0.3 教員B 0 6 4 5 11 4 8 5 1 6 50 xB 5 10 10 (0 5) 2 (6 5) 2 (4 5) 2 (5 5) 2 (11 5) 2 (4 5) 2 (8 5) 2 (5 5) 2 (1 5) 2 (6 5) 2 s 10 (5) 2 (1) 2 (1) 2 (0) 2 (6) 2 (1) 2 (3) 2 (0) 2 (4) 2 (1) 2 10 25 1 1 0 36 1 9 0 16 1 10 90 9 10 2 B sB 9 3 s A2 sB2 となり、教員Bの分散の方が大きいことがわかる。 標準偏差も s A sB である。 <標準化と標準正規分布> A君は、あるテストで英語が90点、数学が65点であっ た。 ⇒ 英語の方が数学より成績が良かった?? 英語の平均点が80点、数学の平均点が50点だった。 ⇒ 英語は平均点より10点高い、数学は平均点より15点 高い。数学の方が良い?? 英語と数学のどちらが成績が良かったのだろうか? ⇒ 標準化の必要性(これを応用したものが偏差値) 平均や分散の異なるものを比較するとき、平均や分散をそろ え、その相対的な位置によって比較しようというのが標準化 の考えである。 標準化は次のような変換である。このようにして求められた 変量を標準化変量(zスコア) zi xi x s 英語が平均80点、標準偏差10であり、数学が平均50点、標 準偏差20であったとする。 この例で、 英語は 数学は 90 80 1 10 65 50 0.75 20 となり英語の方が成績が良いことになる。 zスコアの大小で、平均や分散の異なるものを比較する ことができる。zスコアは算術平均0、標準偏差1の変量 であるが、これを算術平均50、標準偏差10の変量に変 換したものが偏差値(Tスコア)である。(算術平均50、標 準偏差10は100点満点のテストの点数のように見える) 偏差値はzスコアを次のように変換する。 Ti 50 10 zi 先ほどの例では、 英語は 数学は となる。 50 10 1 60 50 10 0.75 57.5 ⅲ) レンジ(範囲) • レンジ ⇒ データの取りうる範囲 レンジ = 最大値 - 最小値 • 10人のテストの点数の例では 90 - 10=80 ⅳ) 四分位偏差 データを大きさの順(小さい順)に並べて、4分割する 点をq1,q2,q3とする。 このとき、次式で定義されるQを四分位偏差という。 Q 最小値 q1 (q3 q1 ) 2 q2 q3 最大値 (例)9人のテストの点数が次のようになって いたとする。 出席番号 点数 1 60 2 90 3 80 4 50 5 6 7 8 9 70 10 60 80 20 点数の低い順に並べ替え 10 20 50 60 60 q1 q2 最小値 70 80 q3 80 90 最大値 (メディアン) q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値 Q (80 50) 30 15 2 2 <箱ひげ図> 最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。 下の図は、9人のテストの点数を箱ひげ図に表した1例である。 9人のテストの点数の箱ひげ図 100 最大値 90 q3(第3四分位点) 80 70 60 50 × 中央値 q1(第1四分位点) 40 30 20 10 0 最小値
© Copyright 2024 ExpyDoc