※ 以前のスライドに補足を加えたい部分が多くあったので、増補版を作成した。 1) 代表値(中心的傾向) ある集団についてのデータ(例えば50人のクラスの身 長など)があるとき、集団の特徴をあらわすには、そ の中心的傾向を示す数値が必要となる。 中心的傾向をあらわす数値として、 › 算術平均 › メディアン(中央値) › モード(最頻値) の3種類がある。 ⅰ) 算術平均 算術平均 = データの合計 ÷ データ数 n x x xn x 1 2 n x i 1 i n (例) 10人のテストの点数 出席番号 点数 x 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 60 90 80 50 70 10 60 80 20 80 600 60 10 10 ⅱ) メディアン(中央値、中位数) メディアン → データを大きさの順に並べた ときに真ん中にくる値。データ数が偶数のとき は真ん中の2つの値を足して2で割る。 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 点数の低い順に並べ替え 10 20 50 60 60 70 80 80 80 90 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン ⅲ) モード(最頻値) モード - データの中で最も多く出てくる 値。10人のテストの点数の例では 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 80点が3人と最も多い。モードは80となる。 † データのとりうる値が多いとき、データの最も多く出てくるものではな く、度数分布表にしたときに、最も度数の多い階級の階級値をモード と考える。 ⅳ) 各代表値の特徴 下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。 A B 20 C 20 D 22 E 28 30 仮想データ • この5人の収入の算術平均は 20 20 22 28 30 120 x 24 5 5 • メディアンは、この場合、小さい順に並んでるので • モードは、 • よって、算術平均は24、メディアンは22、モードは20となる。 次に、裕福なFさんがこの5人に加わったとする。 A B 20 C 20 D 22 E 28 F 30 60 仮想データ • この6人の収入の算術平均は 20 20 22 28 30 60 180 x 30 6 6 • メディアンは、真ん中の2人を足して2で割るので、(22+28)÷2=25 • モードは、 • よって、算術平均は30、メディアンは25、モードは20となる。 次に、より裕福なGさんがこの6人に加わったとする。 A B 20 C 20 D 22 E 28 F 30 60 G 1220 仮想データ • この7人の収入の算術平均は 20 20 22 28 30 60 1220 1400 x 200 7 7 • メディアンは、真ん中である。 • モードは、 • よって、算術平均は200、メディアンは28、モードは20となる。 別の例もみてみよう。 下の図は貯蓄現在高階級別の世帯分布である。 • 貯蓄現在高が算術平 均(1638万円)より低い 世帯は全世帯の3分の 2におよぶ。ほとんどの 世帯はメディアンである 988万円ほどの貯蓄も なく、200万円未満の貯 蓄しかない(ここがモー ドである)。 • 少数の大金持ちと多数 の庶民がいるため、こ のようなことがおこる。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1) 度数 右にゆがんだ分布の例 ゆがんだ分布であれば、算術平均とメ ディアンは一致しない。(モードも一致 しない) 左右対称な分布であれば、算術平均と メディアンは一致する。また、分布の山 が1つであれば、モードもこれに一致す る。 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 階級 45 40 35 30 25 20 15 10 5 0 左右対称な分布の例(2) 度数 度数 左右対称な分布の例(1) 1 2 3 4 5 6 7 8 階級 9 10 11 12 13 14 15 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 階級 9 10 11 12 13 14 15 <正規分布> 算術平均、メディアン、モードが等しくなる、山が1つの左 右対称の分布の中に、つりがね型†をした正規分布といわれ るものがある。 この分布は、数学的に非常に取り扱いやすい性質を持ってお り、身長や知能指数などがこの分布にしたがうといわれてい る。テストの点数もこのような分布になることが理想といわ れている。 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 3 2.7 2.4 2.1 1.8 1.5 1.2 0.9 0.6 0.3 0 -0.3 -0.6 -0.9 -1.2 -1.5 -1.8 -2.1 -2.4 -2.7 -3 0 † 「つりがね型」は、bell curve の訳であり、日本の寺院にあるつりがねの形では なく、教会にあるベルの形をしている。 算術平均は少数の極端な値が含まれるとき、 その集団の正しい代表値とならないことがあ る。メディアンの方が少数の極端な値の影響 を受けづらい。 しかし、貯蓄現在高のように分布がゆがんで いる場合には、メディアンでも集団の正しい 代表値とはいえない場合もある。(この場合 はモードが適切か) しかし、算術平均は数学的な扱いやすさから、 代表値として非常に良く用いられている。 算術平均をうのみにしないようにしよう! 2) 散布度(散らばりの傾向) 教員A 教員B • チャイムの5分後に必ず教室 にくる。 • チャイムと同時に教室にくるこ ともあれば、10分以上遅れる こともある。 • 2人の教員はともに平均してチャイムの5分後に教室にくる • 2人の教員の特徴を表現するために、平均だけでは不十分。 →散らばりの尺度の必要性 • 散らばりの傾向をあらわす尺度として – 分散、標準偏差 – レンジ(範囲)、四分位偏差 などがある。 ⅰ) 分散 分散=偏差2乗和÷データ数 偏差2乗和 - 個々のデータから算術平均を引いたもの (偏差)を2乗して、すべて加えたもの。 n ( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2 s n 2 (x x) i 1 2 i n 10人のテストの点数の例では (60 60)2 (90 60)2 (80 60)2 (50 60)2 (70 60)2 (10 60)2 (60 60)2 (80 60)2 (20 60)2 (80 60)2 s 10 2 6400 640 10 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 -40 20 400 1600 400 算術平均60を引く 偏差 0 30 20 -10 10 -50 0 20 2乗を求める 0 900 400 100 100 2500 0 合計を求める 6400 データ数(10)で割る 640 分散 ⅱ) 標準偏差 標準偏差 ⇒ 分散の平方根 n s s2 2 ( x x ) i i 1 n 10人のテストの点数の例では s 640 25.298 ※ 2人の教員が教室に来る時間の例 回 教員A 教員B 1 4.5 0 2 5.3 6 3 4.8 4 4 5 5 5 5.5 11 (単位:分) 6 4.7 4 7 5.2 8 8 4.8 5 9 4.9 1 10 5.3 6 教員A xA 4.5 5.3 4.8 5 5.5 4.7 5.2 4.8 4.9 5.3 50 5 10 10 (4.5 5) 2 (5.3 5) 2 (4.8 5) 2 (5 5) 2 (5.5 5) 2 (4.7 5) 2 (5.2 5) 2 (4.8 5) 2 (4.9 5) 2 (5.3 5) 2 10 2 2 2 2 2 2 2 (0.5) (0.3) (0.2) (0) (0.5) (0.3) (0.2) (0.2) 2 (0.1) 2 (0.3) 2 10 0.25 0.09 0.04 0 0.25 0.09 0.04 0.04 0.01 0.09 10 0.9 0.09 10 s A2 sA 0.09 0.3 教員B 0 6 4 5 11 4 8 5 1 6 50 xB 5 10 10 (0 5) 2 (6 5) 2 (4 5) 2 (5 5) 2 (11 5) 2 (4 5) 2 (8 5) 2 (5 5) 2 (1 5) 2 (6 5) 2 s 10 (5) 2 (1) 2 (1) 2 (0) 2 (6) 2 (1) 2 (3) 2 (0) 2 (4) 2 (1) 2 10 25 1 1 0 36 1 9 0 16 1 10 90 9 10 2 B sB 9 3 s A2 sB2 となり、教員Bの分散の方が大きいことがわかる。 標準偏差も s A sB である。 <標準化と標準正規分布> A君は、あるテストで英語が90点、数学が65点であっ た。 ⇒ 英語の方が数学より成績が良かった?? 英語の平均点が80点、数学の平均点が50点だった。 ⇒ 英語は平均点より10点高い、数学は平均点より15点 高い。数学の方が良い?? 英語と数学のどちらが成績が良かったのだろうか? ⇒ 標準化の必要性(これを応用したものが偏差値) 平均や分散の異なるものを比較するとき、平均や分散をそろ え、その相対的な位置によって比較しようというのが標準化 の考えである。 標準化は次のような変換である。このようにして求められた 変量を標準化変量(zスコア) zi xi x s 英語が平均80点、標準偏差10であり、数学が平均50点、標 準偏差20であったとする。 この例で、 英語は 数学は 90 80 1 10 65 50 0.75 20 となり英語の方が成績が良いことになる。 zスコアの大小で、平均や分散の異なるものを比較する ことができる。zスコアは算術平均0、標準偏差1の変量 であるが、これを算術平均50、標準偏差10の変量に変 換したものが偏差値(Tスコア)である。(算術平均50、標 準偏差10は100点満点のテストの点数のように見える) 偏差値はzスコアを次のように変換する。 Ti 50 10 zi 先ほどの例では、 英語は 数学は となる。 50 10 1 60 50 10 0.75 57.5 ⅲ) レンジ(範囲) • レンジ ⇒ データの取りうる範囲 レンジ = 最大値 - 最小値 • 10人のテストの点数の例では 90 - 10=80 ⅳ) 四分位偏差 データを大きさの順(小さい順)に並べて、4分割する 点をq1,q2,q3とする。 このとき、次式で定義されるQを四分位偏差という。 Q 最小値 q1 (q3 q1 ) 2 q2 q3 最大値 (例)9人のテストの点数が次のようになって いたとする。 出席番号 点数 1 60 2 90 3 80 4 50 5 6 7 8 9 70 10 60 80 20 点数の低い順に並べ替え 10 20 50 60 60 q1 q2 最小値 70 80 q3 80 90 最大値 (メディアン) q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値 Q (80 50) 30 15 2 2 <箱ひげ図> 最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。 下の図は、9人のテストの点数を箱ひげ図に表した1例である。 9人のテストの点数の箱ひげ図 100 最大値 90 q3(第3四分位点) 80 70 60 50 × 中央値 q1(第1四分位点) 40 30 20 10 0 最小値
© Copyright 2024 ExpyDoc