統計学1 データを表現する特性値 中間試験の得点分布 散らばり傾向を

2015/5/8
データを表現する特性値
• 中心的傾向を表す特性値(前回)
平均、中央値、相乗平均
最頻値、トリム平均
統計学1
散らばり傾向の特性値
中心的傾向を表す特性値だけでデータの特徴
をうまく表現しているでしょうか?
散らばり傾向を表す特性値
中間試験の得点分布
理科
平均点はどちらも60点です。
英語
このような場合、中心的傾向を表す特性値だけでは、
分布の違いを表現できない!
散らばりを表す特性値(失敗編)
散らばりを表す特性値を考える際には、平均を基準にして
考えます。平均の周りにどの程度データが散らばっている
かを知りたいので
を考えればよいことは、直感的にわかります。ただ、これらの
数値はデータ数と同じだけあり、これらを特性値としては使え
ません。そこでこれらをまとめた
が使えそうです。
理科の中間試験の結果が
55, 61, 59, 65, 60 (点)
であるとすると、平均μ=60点です。散らばりを調べ
るため
55-60, 61-60, 59-60, 65-60, 60-60
-
-
つまり、 5, 1, 1, 5, 0を調べればよいと思われま
すが、データ数分の数字があります(5個)。これで
は特性値にならないので、これらをまとめた
この値は常に0であり、特性値としては使えない!
理科の中間試験の値でも
が使えるかもしれない!
1
2015/5/8
失敗の原因
考え方(その1)
平均の前後にデータの値がばらついていること
は
を調べれば分かるのですが、これらの数値には
正の数と負の数が含まれており、単純に和を取
ると ”0” になります。
0
理科の中間試験データの場合
と絶対値をとれば、正の数だけになる!
これらの平均
を散らばりを表す特性値にする。この特性値は
平均偏差と呼ばれている。
考え方(その2)
とすべて2乗すれば、正の数だけになる!
これらの平均
が平均偏差となる。
を散らばりを表す特性値にする。この特性値は
分散と呼ばれ、σ2で表される。
理科の中間試験データの場合
電卓による分散計算
電卓により分散を計算する場合
が分散となる。
ではなく、これを変形した
と、メモリー機能を利用した方が楽である。
2
2015/5/8
メモリー機能
メモリー機能
MCキー・CMキー ・・・ メモリー内を0にする
MRキー・RMキー ・・・ メモリー内の値を画面
電卓には途中計算の値を一時的に覚えておい
てくれるメモリー機能がついています。
に出力する
メモリー
M+キー
・・・ メモリー内の値に画面に出て
Mーキー
・・・ メモリー内の値に画面に出て
いる値を足す
8749
いる値を引く
※メモリー内で計算もできますが
結果などは意図的に画面に
表示させなければなりません。
の計算
理科の中間試験データの場合
この部分の計算をメモリー機能を用いて行う。
•
•
•
•
•
•
•
•
•
•
•
•
MCキーを押し、メモリーを0にする
5,5を押し、画面に”55”を出す
×キー,=キーを押し画面に”3025”を出す
M+キーを押す
6,1を押し、画面に”61”を出す
×キー,=キーを押し画面に”3721”を出す
M+キーを押す
・・・・
6,0を押し、画面に”60”を出す
×キー,=キーを押し画面に”3600”を出す
M+キーを押す
MRキーを押す(18052が画面に出る)
この値を5(データ数)で割る
画面
0
55
3025
3025
61
3721
3721
メモリー内
0
0
0
3025
3025
3025
6746
60
3600
3600
18052
3610.4
14452
14452
18052
18052
18052
3610.4が画面に出る。
理科の中間試験データの場合
分散の欠点
分散は散らばり傾向を表す特性値の1つですが、
分散の数字とデータの数字の単位が異なって
いる点に注意が必要です!
統計で扱うデータには単位を伴っているデータ
があります。これらの数字を用いて特性値の計
算を行った場合、計算による単位が特性値に
付いてきます。
3
2015/5/8
平均の場合
μ=(55 (点)+61 (点) +59 (点)+65 (点)+60 (点))÷5=60(点)
分散の場合
{(55(点)ー60(点))2+ (61(点)ー60(点))2+ (59(点)ー60(点))2+
(65(点)ー60(点))2+ (60(点)ー60(点))2}÷5=10.4 (点2)
平均は元々のデータと同じ単位であるが、分散は
単位が異なる。
四分位数
第1四分位数
データを小さい順に並べ小さい方から25%
目の値。
第2四分位数
データを小さい順に並べ小さい方から50%
目の値(これは中央値である)。
第3四分位数
データを小さい順に並べ小さい方から75%
目の値。
大きい方のデータ58, 60, 74, 95, 97の中央値は
74であり、これが第3四分位数になる。よって、
四分位範囲は
74-48=26
となる。
四分位範囲の半分を四分位偏差という。上の例では四分位偏
差は
26÷2=13
である。
散らばり傾向を表す特性値
分散の単位が元々のデータと異なり、使いにく
いということから、単位を揃えるため分散の平
方根が散らばり傾向を表す特性値として使わ
れることもあります。これは標準偏差と呼ばれ
ています。
理科の中間試験データの場合、
分散σ2=10.4でしたので、この平方根
σ=
=3.225が標準偏差となります。
四分位範囲
(第3四分位数)ー(第1四分位数)のことである。
例:データが
60, 58, 74, 26, 57, 97, 48, 47, 95, 50
であるとき、これらを小さい順に並べると
26, 47, 48, 50, 57, 58, 60, 74, 95, 97
であり、 中央値は57.5となる。小さい方のデー
タ26, 47, 48, 50, 57の中央値は48であり、これ
が第1四分位数になる。
散らばり傾向を表す特性値
また、平均の値が大きく異なるとき標準偏差だ
けでは散らばり傾向を比較しにくいということか
ら、標準偏差と平均の比(σ/μ)で相対的な散ら
ばり傾向を表すこともあります。これは変動係
数と呼ばれています。
理科の中間試験データの場合、
標準偏差σ=3.225、平均μ=60でしたので、変
動係数は
σ/μ=3.225/60=0.054となります。
4
2015/5/8
演習問題
英語の中間試験の結果が
50, 61, 67, 50, 72, 88, 41, 94, 35, 62 (点)
であるとする。
このとき、平均偏差、分散、標準偏差、四分位
範囲をもとめよ。
5