1.度数分布とヒストグラム ② 度数分布表の作成方法

統計学Ⅰ 3章 4章
1.度数分布とヒストグラム
3章 度数分布とローレンツ曲線
教科書 29-39ページ
1.度数分布とヒストグラム
(1) 度数分布表
(1) 度数分布表
(2) ヒストグラム
(3) 相対度数
(4) 累積相対度数
①目的
z 与えられたデータの特徴をつかむ
z もとのデータをみただけでは,得られない情報
を得る
• まん中
• 散らばり…
ex. 表2-1
2.累積相対度数分布とローレンツ曲線
(1) ローレンツ曲線
(2) ジニ係数
p.30の得点の例 (n=20)
43,20,65,38,32,
33,91,8,12,26,
41,53,25,18,29,
32,36,43,33,57
階級
以上
未満
0 ~ 10
10 ~ 20
20 ~ 30
30 ~ 40
40 ~ 50
50 ~ 60
60 ~ 70
70 ~ 80
80 ~ 90
90 ~ 100
合計
度数
1
2
4
6
3
2
1
0
0
1
20
② 度数分布表の作成方法
1.
2.
p.30の例
(階級:10
点きざみの
10階級)
⇒データをみただけでは,特徴がわからない
[特徴とは]
• 真ん中がどのくらいか
• 何点から何点ぐらいに散らばっているか
• 何点ぐらいを取っている人が多いか・・・
⇒表3-1のような表(度数分布表)にまとめる
階級を決める
各階級に含まれるデータ数(度数)をカウントする
階級
度数
以上
未満
0 ~ 10
10 ~ 20
20 ~ 30
30 ~ 40
40 ~ 50
50 ~ 60
60 ~ 70
70 ~ 80
80 ~ 90
90 ~ 100
合計
③ 階級の設定の仕方(34-35ページ)
1. 階級数
• 多すぎず,少なすぎず(一度作成してから,検討
する)
• 参考:階級数決定の公式(35ページ)
• スタージスの公式など
2. 階級の幅
• できれば等間隔に
• 状況に応じて幅は異なってもよい(ex.37ページ,
表3-3)
3. 級限界
• 通常は,~以上・・・未満
• 最後の階級は,オープンエンドになる場合がある
階級
以上
0
10
20
30
40
50
60
70
80
90
~
~
~
~
~
~
~
~
~
~
合計
度数
未満
10
20
30
40
50
60
70
80
90
100
1
2
4
6
3
2
1
0
0
1
20
(2) ヒストグラム
|
|
度数分布を視覚的に表現する
度数分布表を棒グラフにしたものがヒストグ
ラム
z
z
|
縦軸:度数(または相対度数)
横軸:変数の値
注意点
z
横軸,縦軸が何かを明示すること
z
階級の幅が異なるときは,階級幅で度数を調
整する(p.36 例題1.1参照)
• 特に,横軸に変数名と単位を明示
• 度数÷階級幅をヒストグラムの高さにする
1
統計学Ⅰ 3章 4章
度数
表3-3のヒストグラム(間違った例)
得点のヒストグラム
得点例題のヒストグラム p.33参照
7
6
年間収入のヒストグラム
5
1200
4
1000
3
階級幅が一定
でない場合は,
ヒストグラムの
高さを調整
800
度数
2
600
1
400
0
0
10
20
30
40
50
60
70
80
90 100
得点(点)
得点(点)
200
10
0
15
0
20
0
25
0
30
0
35
0
40
0
45
0
50
0
55
0
60
0
65
0
70
0
75
0
80
0
90
0
10
00
0
横軸の幅も等
間隔ではない
年間収入(万円)
„
(3) 相対度数
度数
相対度数
階級
数学 英語 数学 英語
以上
未満
0 ~ 10
1
2
0.05 0.08
10 ~ 20
2
3
0.10 0.12
20 ~ 30
4
5
0.20 0.20
30 ~ 40
6
6
0.30 0.24
40 ~ 50
3
3
0.15 0.12
50 ~ 60
2
2
0.10 0.08
60 ~ 70
1
1
0.05 0.04
70 ~ 80
0
1
0.00 0.04
80 ~ 90
0
1
0.00 0.04
90 ~ 100
1
1
0.05 0.04
合計
20
25 1.00 1.00
相対度数:各階級の度数の割合
|
相対度数=
„
各階級の度数
データ数 n
相対度数の合計=1
階級
度数 相対度数
以上
未満
0 ~ 10
1
0.05
10 ~ 20
2
0.10
20 ~ 30
4
0.20
30 ~ 40
6
0.30
40 ~ 50
3
0.15
50 ~ 60
2
0.10
60 ~ 70
1
0.05
70 ~ 80
0
0.00
80 ~ 90
0
0.00
90 ~ 100
1
0.05
合計
20
(4) 累積度数
|
累積度数の計算
累積度数:ある階級以下に含まれる度数の合計
階級
以上
未満
0 ~ 10
10 ~ 20
20 ~ 30
30 ~ 40
40 ~ 50
50 ~ 60
60 ~ 70
70 ~ 80
80 ~ 90
90 ~ 100
合計
度数
1
2
4
6
3
2
1
0
0
1
20
1
3
7
13
16
18
19
19
19
20
0.05
0.15
0.35
0.65
0.80
0.90
0.95
0.95
0.95
1.00
|
|
相対度数 累積度数 累積相対度数
0.05
0.10
0.20
0.30
0.15
0.10
0.05
0.00
0.00
0.05
1.00
異なった分布を比較するときに便利
ex. データ数が異なる場合の分布の比較
|
順位をみるとき
に便利
|
ex. 順位が真ん
中に対応する
データ
|
|
第1階級の累積度数=第1階級の度数
第2階級の累積度数
=第1階級の度数+第2階級の度数
第3階級の累積度数
=第1階級の度数+第2階級の度数+第3階級の度数
=第2階級の累積度数+第3階級の度数
・・・
第k階級の累積度数
=第 k-1 階級の累積度数+第 k 階級の度数
最後の階級の累積度数=データ数
2
統計学Ⅰ 3章 4章
累積相対度数
|
2.累積相対度数分布とローレンツ曲線
(1)
累積相対度数:相対度数の累積度数
z
z
最後の階級の累積相対度数=1
一定の割合に対応するデータをみるときに便利
①目的
z
ex. 上位10%
真ん中(50%)
|
z
所得分布,所得分配の不平等度(所得格差)を
分析する方法
日本の所得分配
•
•
その他
z 度数曲線:ヒストグラムの棒の真ん中を結んで,
分布のだいたいの形を把握する (33ページ参照)
z
教科書 39-45ページ
ローレンツ曲線
z
論点
•
•
•
累積度数曲線,累積相対度数曲線(図3-3)
高度成長期→所得分配が平等化
バブル崩壊後→所得の不平等度が拡大?
1990年代に入って,格差は拡大しているのか
改革が格差を大きくしたのか
格差によって,不平等が生じているのではないか
•
•
「結果の平等」と「機会の平等」
教育の問題
② 簡単な例:2000万円を5人で分配する場合
(たとえば5人の企業で2000万円の利益があったとき
の従業員への給料の配分方法)
a. 完全な平等→1人400万円ずつ分配
所得格差やローレンツ曲線
に関する参考資料
|
橘木俊詔 (1999) 『日本の経済格差―所得と資産から考え
る』 岩波新書.
|
佐藤俊樹 (2000) 『不平等社会日本』 中公新書.
|
山田昌弘 (2004) 『希望格差社会』 筑摩書房.
|
大竹文雄 (2005) 『日本の不平等』 日本経済新聞社.
|
橘木俊詔 (2006) 『格差社会―何が問題なのか』 岩波新書.
|
総務省統計局「全国消費実態調査」のホームページ
完全に平等な分配
累積比率
比率
人数 金額 人数 金額 人数 金額
A
B
C
D
E
合計
平等である⇒
1
1
1
1
1
5
400
400
400
400
400
2000
0.2
0.2
0.2
0.2
0.2
1.0
–人数の比率と金額の比率が一致する
③ローレンツ曲線の描き方
A:200万円 (10%) B:300万円 (15%) C:400万円 (20%)
D:500万円 (25%) E:600万円 (30%)
不平等な分配
比率
累積比率
人数 金額 人数 金額 人数 金額
200
300
400
500
600
2000
0.2
0.2
0.2
0.2
0.2
1.0
0.20
0.40
0.60
0.80
1.00
1.0
b. 不平等な分配の場合
1
1
1
1
1
5
0.20
0.40
0.60
0.80
1.00
–人数の累積比率と金額の累積比率が一致する
http://www.stat.go.jp/data/zensho/2004/index.htm
A
B
C
D
E
合計
0.2
0.2
0.2
0.2
0.2
1.0
0.10
0.15
0.20
0.25
0.30
1.0
0.20
0.40
0.60
0.80
1.00
0.10
0.25
0.45
0.70
1.00
0
1.0
分配の不平等さをグラフで表す⇒ローレンツ曲線
横軸:人数(世帯数)の累積相対比率(度数)
縦軸:所得の累積相対比率
z 正方形のなかにグラフを描く
z
z
• 横軸,縦軸とも最大値は1.0
z
各階級について,両者の値をプロットして結ぶ
2つの比率を
不平等である⇒
–人数の比率と金額の比率が一致しない グラフにする
–人数の累積比率と金額の累積比率が一致しない
3
統計学Ⅰ 3章 4章
ローレンツ曲線(例題)
④ ローレンツ曲線の解釈
所得の累積比率
1
0.9
|
均等分布線
0.8
ローレンツ曲線と均等分布線の近さ
ローレンツ曲線が均等分布線に近いほど分配は平等
ローレンツ曲線が均等分布線から離れるほど(外枠に
近いほど)分配は不平等
z 最も不平等な場合は,外枠になる
(注意) ローレンツ曲線は,均等分布線の上に位置す
ることはない
0.7
z
0.6
z
ローレンツ曲線
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
|
1
1本のローレンツ曲線で不平等度は測れない
過去との比較(時系列)
国別の比較(クロスセクション)
z
人数の累積比率
対角線(45度線)=均等分布線または完全平等線
・・・完全な平等の場合の例でのローレンツ曲線
z
階級ごとに度数が異なっている場合
(2) ジニ係数
(41ページ,表3-4参照)
度数×所得(総収入)で階級ごとの総収入を計算
階級ごとの総収入を合計する
①÷②の比率を求める(階級ごとの収入の比率)
③を累積する.また,相対度数・累積相対度数等
を求める
⑤ ④の累積の比率をグラフにする
①
②
③
④
① ジニ係数の目的
| ローレンツ曲線での不平等度の比較
z
z
z
視覚的だが,主観的になりやすい
ローレンツ曲線が交わったり,接したりした場合
の比較が困難
かなり近かったり,多くの比較を行う場合(たと
えば時系列比較)も困難
→数値による不平等の比較が必要:ジニ係数
=ローレンツ曲線の均等分布線への近さを測定
する指標
②ジニ係数(G)の定義
③ ジニ係数の解釈
距離で近さを測るの
は困難
|
z ジニ係数の範囲: 0≦G≦1
(囲まれた面積だと0~0.5)
面積で測る
ローレンツ曲線と均等
分線で囲まれた面積が
小さい方が,両者は近
いと判断する
囲まれた面積を2倍する理由
|
G=0:完全な平等(均等分布線と一致)
G=1:完全な不平等(外枠に一致)
z
z
ジニ係数が小さいほど(0に近いほど),分配は平等
ジニ係数が大きいほど(1に近いほど),分配は不平等
ジニ係数G=ローレンツ曲線と均等分布線
によって囲まれる面積×2
4
統計学Ⅰ 3章 4章
ジニ係数
の計算例
④ ジニ係数の計算
|
台形の面積を利用(近似)
z 上底:その階級の累積収入比率
z 下底:前の階級の累積収入比率
z 高さ=その階級の累積世帯比率
-前の階級の累積世帯比率
=その階級の世帯数比率
(相対度数)
比率
累積比率
人数 金額 人数 金額 人数 金額 台形の面積
0
0
1
200 0.2
0.1 0.20 0.10
0.01
1
300 0.2 0.15 0.40 0.25
0.035
1
400 0.2
0.2 0.60 0.45
0.07
1
500 0.2 0.25 0.80 0.70
0.115
1
600 0.2
0.3 1.00 1.00
0.17
5
2000 1.0
1.0
0.4
G
1
(0.5-0.4)×2
または
1-0.4×2
0.8
0.7
0.6
0.5
|
G=(0.5-台形の面積の合計)×2
=1-台形の面積の合計×2
0.2
0.9
0.4
高さ
0.3
0.2
(0.25 + 0.45) × 0.2 ÷ 2 = 0.07
0.1
0
0
0.2
0.4
0.6
0.8
1
5
統計学Ⅰ 3章 4章
1.代表値 ー 平均値
4章 データの代表値:平均
教科書 49-54ページ
1.代表値-平均値
(1) 平均値の定義
(2) Σとその性質
(3) 平均値の性質
(4) 平均値に関する注意点
(5) 度数分布表からの平均値の計算
2.メディアン(中央値)
(1) メディアンの定義
(2) メディアンの性質
3.モード(最頻値)
4.平均値・メディアン・モードの関係
(1) 平均値の定義
① 平均値の目的
z
z
z
z
8人の平均
最後の人を除いた7人の平均
• 平均によってデータを代表できるかどうか
④ 平均の公式
一般的なデータの表現:
| 平均=データの合計÷データ数
x1 , x 2 , L , x n
または
平均=データの合計÷データ数
p.50 例題1.1
|
③ データの表し方
|
データのまん中(中心)を測る1つの尺度
② 定義
平均値 x (エックス・バー)
xi ; i = 1,2,L , n , nはデータ数
1
( x1 + x2 + L + xn )
n
n
1
=
xi
n i =1
x=
• 例題1.1
320, 250, 210, 230, 360, 290, 340,1580
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
x1
x2
x3
x4
x5
x6
x7
∑
x8
(2) Σとその性質
①Σの定義
Σ(シグマ):合計
②Σの計算例(p.50 例題1.1の数値)
x1 = 320, x2 = 250, x3 = 210, x4 = 230, x5 = 360, L
4
合計の最後
∑x
i =1
= x1 + x2 + x3 + x4 = 320 + 250 + 210 + 230 = 1010
i
5
∑x
i =3
n
∑x
i =1
i
=x1 + x2 + L + xn
= x3 + x4 + x5 = 210 + 230 + 360 = 800
i
4
∑ 5x
i =1
i
= 5 x1 + 5 x2 + 5 x3 + 5 x4 = 1600 + 1250 + 1050 + 1150 = 5050
4
∑ ( x + 10) = ( x
i =1
i
1
+ 10) + ( x2 + 10) + ( x3 + 10) + ( x4 + 10)
= 330 + 260 + 220 + 240 = 1050
合計の最初
3
ex.
∑x
i =1
i
=x1 + x2 + x3 ,
6
∑x
i =3
i
3
∑ ( xi − 200)2 = ( x1 − 200)2 + ( x2 − 200)2 + ( x3 − 200)2
i =1
=x3 + x4 + x5 + x6
= (320 − 250) 2 + ( 250 − 250) 2 + ( 210 − 250) 2
= 4900 + 0 + 1600 = 6500
6
統計学Ⅰ 3章 4章
③Σの重要な性質
n
定義
∑x
i
i =1
Σの性質の数値例
= x1 + x2 + L + xn
n
i
xi
5xi
yi
xi+yi
a(= 5)
1
320
1600
10
330
5
2
250
1250
20
270
5
3
210
1050
30
240
5
合計
780
3900
60
840
15
n
∑ 5x
= 5∑ x
n
(1) ∑ axi = a ∑ xi
i =1
aは定数
i =1
n
n
n
(2) ∑ ( xi + yi ) =∑ xi + ∑ yi
i =1
i =1
i =1
n
n
n
i =1
i =1
i =1
∑x
または ∑ ( xi − yi ) =∑ xi − ∑ yi
i
i =1
n
i =1
(3) ∑ a = na
n
n
∑(x + y ) ∑5= 5 × 3
=∑x +∑ y
i
i
i =1
n
i
i =1 n
i
i =1
n
n
∑y
i
i =1
i =1
n
i
i =1
i
i =1
∑ の定義を利用して,各性質を証明せよ.
(3) 平均値の性質
n
(1)∑ axi
i =1
1.合計=平均×データ数
n
(2) ∑ ( xi + yi )
x=
n
1 n
xi
∑ xi ⇒ nx = ∑
n i =1
i =1
2.平均からの偏差:各データが平均からどれ
だけ離れているか (単に偏差ともいう)
i =1
平均からの偏差=各データ-平均
xi − x
平均からの偏差の合計は0
n
n
∑ (x
(3) ∑ a
i =1
i
− x ) =0
i =1
(平均からの)
偏差
例
xi
x i − x ( x i − x ) 2 ( x i − 70 ) 2
50
-18
324
400
50
-18
324
400
70
2
4
0
80
12
144
100
90
22
484
400
合計
340
0
1280
1300
平均
68
n
∑ (x
i =1
i
− x)
偏差2乗和
n
∑ (x
i =1
i
− x )2
平均の性質(続)
3.平均からの偏差の2乗和は最小
n
∑ (x
i
− x ) 2 → 最小
i =1
4.データに一定値を加えた平均=もとの平均
+一定値
ex.あるテストで全員の得点に10
点加えると,平均点も10点上がる
x + c= x + c
5.データの一定倍の平均=もとの平均×一定値
cx = c x
ex. あるテストで全員の得点を2
倍すると,平均点も2倍になる
7
統計学Ⅰ 3章 4章
(4) 平均に関する注意点
平均の性質の証明
① 平均は極端に大きい(小さい)値の影響を受けやすい
1.平均の性質2を証明せよ(p.54).
|
n
∑( x − x ) =
i =1
i
例題1.1
320,250,210,230,360,290,340,1580
n = 8のとき x = 447.5 •平均より多い人:1人
•平均より少ない人:7人
→平均=まん中ではない
(平均が中心としての意味がない)
2.平均の性質4と5を証明せよ.
x+c=
cx =
n = 7 のとき x = 285.7
1 n
∑ ( xi + c) =
n i =1
1 n
∑ cxi =
n i =1
②グループの平均(加重平均)
|
(5) 度数分布表からの平均値の計算
|
p.52の例題(男女の給料)
男
女
平均給料
780
570
全体
780 + 570
= 675
2
単純平均
人数
30
計
23400
15
8550
45
31950
570
675
780
710
ウェイト
30 × 780 + 15 × 570
= 710
30 + 15
p.30の例(20人の得点)
階級
以上
未満
0点 ~ 10点
10 ~ 20
20 ~ 30
30 ~ 40
40 ~ 50
50 ~ 60
60 ~ 70
70 ~ 80
80 ~ 90
90 ~ 100
合計
度数
1
2
4
6
3
2
1
0
0
1
20
階級値 度数×階級値
5
15
25
35
45
55
65
75
85
95
5
30
100
210
135
110
65
0
0
95
750
平均 = 750 ÷ 20
= 37.5
加重平均
本当の平均との違い
|
•平均より多い人:4人
•平均より少ない人:3人
→平均が中心としての意味をもつ
度数分布表から計算した平均
2.メディアン(中央値)
度数をウェイトに
した加重平均
1× 5 + 2 × 15 + L + 1× 95 750
=
= 37.5
1+ 2 +L+1
20
異なる
• もとのデータから直接計算した平均
43 + 20 + 65 + L + 57 735
=
= 36.75
20
20
ただし
違い
は小さ
い
教科書 55-56ページ
(1) メディアンの定義
| データを大きさの順に並べたとき(順序統計量),順
位が真ん中に対応するデータの値
例1 10, 20, 30, 80, 100
例2 10, 20, 30,80
| データ数nが奇数の場合
z
|
メディアン=
n +1
2 番目のデータ
データ数nが偶数の場合
z
メディアン=
n
n
+ 1 番目の平均
2 番目と 2
8
統計学Ⅰ 3章 4章
(2) メディアンの性質
メディアンと平均
|
例題1-1の8人の所得の例メディアンと平均を求めよ.
210, 230, 250, 290, 320, 340, 360, 1580
メディアン=
|
メディアンは異常値の影響を受けない
z ex.1580を別の値に変えてみる
z
「まん中」の値として平均よりも適当
z
平均
≠ まん中
平均=447.5(万円)
メディアンより大きいデータの個数=メディアンより小さい
データの個数
→データの中央値(中位数)
|
|
1580を除いた7人でメディアンと平均を求めよ.
メディアン=
|
どんなことがわかるか
中心の尺度としては,平均よりもメディアンの方が望
ましい
平均=285.7(万円)
参考:比例配分によるメディアンの公式
(3) 度数分布表からのメディアンの求め方
Md = x L +
メディアンの定義から,メディアンに対応するデータ
(順位が真ん中)が含まれる階級を決めて,
|
① メディアンの含まれる階級の階級値
② メディアンの含まれる階級の比例配分
x L : メディアンが含まれる 階級の下限
xU : メディアンが含まれる 階級の上限
f * : メディアンが含まれる 階級の度数
のいずれかで求める
|
56ページ 例題2.1(表3-3のメディアン)
F−*1 : メディアンが含まれる 階級の前の階級までの 累積度数
n
− F−*1
2
メディアンの含まれる階級 500~550万円
①の方法・・・メディアン=525万円(または表より573万円)
z
F−*1
②の方法・・・ メディアン = 550 + 3989 − 3928 × 50
523
xL
= 555 .83
3.モード
|
教科書 56-57ページ
度数分布表で最大の度数に対応
ヒストグラムの頂点に対応する階級の階級値
z 階級の幅が異なる場合には,階級の幅で調整
した度数に対応する階級値
z
|
数値例
z
z
|
表3-1
表3-3
利用方法
z
z
z
世帯人員のモード
出生率(合計特殊出生率)と子供の数のモード
平均は,現実の値を表わさないことが多い
xU − x L n
( − F−*1 )
*
f
2
n
2
Md
f*
xU − xL
xL
世帯人員別世帯数の推移
世 帯 人 員
(10 区 分 )
世
帯
総
数
数
1
人
2
3
4
5
6
7
8
9
10人以上
世 帯 人 員
1世帯当たり人員
メディアン
昭 和 45 年
1970
昭 和 50 年
1975
昭 和 55 年
1980
昭 和 60 年
1985
平 成 2 年
1990
平 成 7 年
1995
平 成 12 年
2000
平 成 17 年
2005
30,297,014
6,137,443
4,183,902
33,595,728
6,561,316
5,256,774
35,823,609
7,105,246
6,001,075
37,979,984
7,894,636
6,985,292
40,670,475
9,389,660
8,370,087
43,899,923
11,239,389
10,079,958
46,782,383
12,911,318
11,743,432
49,062,530
14,457,083
13,023,662
5,321,911
6,884,785
3,907,031
2,285,353
982,787
386,814
134,855
6,258,725
8,301,309
3,904,137
2,036,681
882,493
283,489
75,804
6,475,220
9,070,100
3,981,763
2,032,848
843,249
235,880
55,354
6,813,402
8,988,042
4,201,242
1,984,619
835,683
211,415
48,379
7,350,639
8,787,908
3,805,147
1,903,065
814,631
198,932
38,309
8,131,151
8,277,047
3,511,770
1,712,927
730,919
174,163
32,743
8,810,437
7,924,827
3,167,227
1,448,960
594,352
144,907
27,856
9,196,084
7,707,216
2,847,699
1,207,777
467,147
120,705
25,660
72,133
35,000
22,874
17,274
12,097
9,856
9,067
9,497
103,350,641
110,337,761
115,450,540
119,333,780
121,545,271
123,646,108
124,724,660
124,973,207
3. 41
3
3. 28
3
3. 22
3
3. 14
3
2. 99
3
2. 82
3
2. 67
2
2. 55
2
出所:総務省統計局「国勢調査」
9
統計学Ⅰ 3章 4章
4.平均値・メディアン・モードの関係
|
山が右に
偏った分布
例題4.1 (57ページ):表3-3の年間収入階級
別世帯数の中心の尺度
平均値:637.2万円
メディアン:573万円
z モード:422万円
z
z
社会科学のデータに多い
モード
| モード<メディアン<平均
→分布の山が左に偏った,右スソの長い
分布をとることが多い
メディアン
平均
z
分布の山が右に
偏った分布
(左スソが長い分布)
平均<メディアン<モード
左右対称の
分布
山が左に
偏った分布
平均
メディアン
モード
モード<メディアン<平均
(例)貯蓄残高のデータ
平均=メディアン=モード
分布の山が左に
偏った分布
(右スソが長い分布)
モード=メディアン=平均
左右対称の分布
(自然科学の
データなど)
平均が最良の中心の尺度ではない
中心の尺度としてなら,メディアンの方が適
切な代表値
| にもかかわらず,なぜ平均の方がよく用いら
れるか
|
z メディアンにはない望ましい性質をもっている
⇒母集団と標本の関係(統計学Ⅱの問題)
10
3章 度数分布とローレンツ曲線 練習問題
(度数分布とヒストグラム)
1.次の表は,1982 年から 2006 年までの物価上昇率(%)の推移を示している.
(1) 度数分布表を作成せよ.ただし,階級は-1.5~-0.5,-0.5~0.5…とする.
(2) ヒストグラムを描け.
(3) 相対度数,累積度数,累積相対度数を算出せよ.
年度
1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
物価上昇率(%) 2.9
1.8
2.3
2.1
0.6
0.1
0.7
2.2
3.1
3.4
1.6
1.3
0.6
年度
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
物価上昇率(%) -0.1 0.1
1.9
0.6 -0.3 -0.8 -0.7 -0.9 -0.3 0.0 -0.3 0.3
2.次の表は,1981 年から 2004 年までの経済成長率(%)の推移を示している.
(1) 経済成長率とは何か.
(2) 上の1と同様に,度数分布表を作成し(度数,相対度数,累積度数,累積相対度数
を求める),ヒストグラムを描け.ただし,階級は-1.5~-0.5,-0.5~0.5…とす
る.
年度
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
経済成長率(%) 2.8
2.6
1.7
3.9
4.5
2.8
5.0
6.7
4.3
6.0
2.2
1.1
年度
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
経済成長率(%) -1.0 2.3
2.4
3.7
0.6 -1.0 0.9
3.1 -1.2 1.0
3.4
2.7
3.得点の例題(30 ページのデータ)の階級の幅を 20 点にして,度数分布表(度数,相対
度数,累積度数,累積相対度数),ヒストグラムを作成せよ.
4.46 ページ 練習問題3
都道府県別交通事故件数(表3-5)について,度数分布表(度数,相対度数,累積度数,
累積相対度数)とヒストグラムを作成せよ.ただし,階級は,25-35,35-45,…とする.
5.46 ページ 練習問題4
6.表 2-5(28 ページ)の都道府県別の新車登録台数と平均気温のデータについて,適当
な階級を定め,度数分布表とヒストグラムを作成せよ.
7.【要 PC】45 ページ練習問題2
11
(累積相対度数分布とローレンツ曲線)
7.下の表は,1986 年と 2006 年の年間収入五分位階級別の1か月あたりの実収入のデー
タである(適当に四捨五入して,数値をまるめてある).このデータについて,ローレンツ
曲線を描き,ジニ係数を計算せよ.ただし,ローレンツ曲線は同じグラフに描くこと.
1986
階級
世帯数
実収入
比率
世帯数 実収入
累積比率
世帯数 実収入 台形の面積
万円
Ⅰ
Ⅱ
Ⅲ
Ⅳ
Ⅴ
合計
2000
2000
2000
2000
2000
30
40
40
50
70
(丸める前の数字は,Ⅰ:250,540,Ⅱ:346,455,Ⅲ:426,196,Ⅳ:522,993,Ⅴ:718,528,単位は円)
2006
階級
世帯数
実収入
比率
世帯数 実収入
累積比率
世帯数 実収入 台形の面積
万円
Ⅰ
Ⅱ
Ⅲ
Ⅳ
Ⅴ
合計
2000
2000
2000
2000
2000
30
40
50
60
90
(丸める前の数字は,Ⅰ: 286149,Ⅱ: 394253,Ⅲ: 478066,Ⅳ:598212,Ⅴ: 869593,単位は円)
出所:総務省統計局「家計調査」
8.遺産の例(39 ページ)について,ローレンツ曲線を描き,ジニ係数を計算せよ.
9.47 ページ
練習問題5(表 3-7)
注:各階級は,度数を 2000 ずつとしておく(同じ度数であれば,いくつにしても構わない)
10.表 3-4(41 ページ)のデータについて,ローレンツ曲線を描き,ジニ係数を計算せよ.
11.46 ページの表 3-6(従業員規模別事業所数)について,ジニ係数を計算せよ.
12. 【要 PC】1990,1995,2000,2005 年の家計調査の年間収入五分位階級別(表 3-7 や
上の表と同様)の実収入のデータを収集し,ローレンツ曲線を描き,ジニ係数を求め,最
近の所得格差の動向について調べよ(総務省統計局のホームページから,家計調査の二人
以上の世帯の調査結果の長期時系列を参照).
12
4章 データの代表値:平均 練習問題
(和記号∑)
1.次の値を計算せよ.ただし, x, y は以下の値をとるものとする.
x1 = 320, x 2 = 250, x3 = 210, x 4 = 230, x5 = 360, x 6 = 290, x 7 = 340, x8 = 1580
y1 = 10, y 2 = 20, y 3 = 30
3
7
(1) ∑ xi
3
( 2) ∑ x i
i =1
3
(3) ∑ xi2
i=4
(4) ∑ ( xi + 20)
i =1
3
3
3
i =1
i =1
i =1
i =1
3
(5) ∑ 5 xi
i =1
3
(6) ∑ ( xi − 250)
i =1
(7) ∑ ( xi − 250) 2 (8) ∑ ( xi + y i ) (9)∑ xi y i
2. x1 = 5, x 2 = 4, x3 = −1, x 4 = 8, y1 = 6, y 2 = −3, y 3 = 2, y 4 = 7 のとき,次の値を求めよ.
4
4
(1)∑ xi
4
( 2) ∑ y i
i =1
(3) ∑ xi
i =1
4
i=2
4
(5) ∑ 5 xi
(6) ∑ xi2
4
4
i =1
i =1
⎛ 4
⎞
−
≠
(
x
4
)
⎜ ∑ ( xi − 4) ⎟
∑
i
i =1
⎝ i =1
⎠
4
4
(10) ∑ 7
2
i =1
2
⎛ 4
⎞
2
≠
x
⎜ ∑ xi ⎟ ,
∑
i
i =1
⎝ i =1 ⎠
4
注
(7) ∑ ( x i − y i )
(9)∑ ( xi − 4)
i =1
i =1
4
i =1
(8) ∑ ( xi − 4)
4
( 4) ∑ ( x i + y i )
2
i =1
3 . x1 = 10, x2 = 20, x3 = 30, y1 = 5, y2 = 0, y3 = −1 の と き , 次 の 値 を 求 め よ (n=3) .
n
( 2) ∑ y i
i =1
(6) ∑ xi2
3
i =1
n
i =1
i =1
i
= 780,
3
∑y
i =1
3
i
( 2) ∑ 5 y i
i =1
i =1
3
3
(5) ∑ (5 xi + 5 yi )
(6) ∑ ( xi + 20)
i =1
n
( 4 ) ∑ 3 xi
i =1
n
(5) ∑ − 3 yi
i =1
n
(9)∑ ( xi − 20)
i =1
n
(10) ∑ ( xi − 20) 2
i =1
= 60 を利用して,次の値を求めよ.
3
(1)∑ 5 xi
5.
i =2
n
(7) ∑ ( xi + yi ) (8) ∑ ( xi − yi )
i =1
∑x
(3) ∑ xi
i =1
n
4.
3
n
(1)∑ xi
i =1
n
n
n
i =1
i =1
i =1
3
(3) ∑ ( xi + yi )
i =1
3
(4) ∑ ( xi − yi )
i =1
3
(7) ∑ ( xi − 250)
i =1
∑ ( xi − yi ) = ∑ xi − ∑ yi を証明せよ.
13
2
(代表値-平均値)
6.例題 1-1(8人の所得)に関して,次の問いに答えよ.
(1) 平均からの偏差をつくり,合計が 0 になることを確かめよ.
(2) 全員の所得が 100 万円上がったときの平均を求めよ.
(3) 全員の所得が 20%上がったときの平均を求めよ.
7.20,40,40,100 という4つのデータに関して,
(1) 平均を求め,平均からの偏差の合計が 0 になることを確かめよ.
(2) すべてのデータが 10 下がったときの平均を求めよ.
(3) すべてのデータが 1/4 になったときの平均を求めよ.
(4) 平均からの偏差2乗和を求めよ.さらに,40 からの偏差2乗和を求めよ.
8.【難】平均の性質の3,すなわち平均からの偏差2乗和が他の値からの偏差2乗和より
n
も小さくなること(
∑ (x
i =1
i
− x ) 2 → min )を証明せよ.
9.あるクラスの男子 24 人の平均点は 50 点,女子 16 人の平均点は 60 点であった.クラ
ス全体の平均点を求めよ.
10.昨年の統計学Ⅰの試験で
1年生は 200 人受験し,その平均点は 75 点
2年生は 60 人受験して,その平均点は 72 点
3年生以上は 40 人受験して,その平均点は 60 点
であったという.全体の平均点を求めよ.
11.20 歳代 2000 人を調査したところ失業率は 10%,30 歳代 3000 人を調査したところ失
業率は 8%であった.20 歳代と 30 歳代全体の失業率は何%か.
12.表 3-3 の度数分布表(37 ページ)から,年間収入の平均を求めよ(例題 1.2)
14
(メディアン)
13.30 ページの得点の例題について,メディアンを求めよ.また,表 3-1 の度数分布表か
らメディアンを求めよ.
14.56 ページの例題 2.1 (表 3-3 のメディアン)
(平均値・メディアン・モードの関係)
15.31 ページの表 3-1(20 人の得点)の平均,メディアン,モードを求め,それらの大き
さを比較して,分布の形がどのようになるかを考えよ.また,ヒストグラムによって分布
の形を確かめよ.
16.次のデータは,20 世帯の貯蓄残高のデータである(単位:万円)
.
50,120,180,220,230,240,300,310,320,350,350,420,
450,500,520,550,620,700,980,1100
(1) これらのデータを度数分布表にまとめよ(階級は 0-200, 200-400,・・・,1000-1200) .
(2) ヒストグラムを作成せよ.
(3) 度数分布表により,平均とモードを求めよ.またメディアンをもとのデータから求めよ
(4) (3)の結果から,このデータの分布の形について,理由を簡単につけて述べよ.
17.次のデータは,あるクラスの 20 人の数学のテストの得点のデータである(単位: 点).
5,13,23,23,25,27,33,34,34,37,37,38,41,42,49,57,73,76,83,95
このデータについて,問題 15 の(1)~(4)と同様の問いに答えよ(階級は,0-20,20-40,
…,80-100)
.
18. 次のデータは,ある株の 20 か月の変化率のデータである(単位:%)
0.1, 0.2, 0.3, 0.8, 1.2, 2.1, 2.2, 2.2, 2.5, 3.2, 3.2, 3.5, 3.8, 3.9, 4.2, 4.5, 5.1, 6.2, 6.3, 9.8
このデータについて,問題 16 の(1)~(4)と同様の問いに答えよ(階級は,0-2,2-4,…,8-10)
19.60 ページ
練習問題3(表 3-6 の業種ごとの規模別従業員数)
15