第2回統計検定 2級 解答解説(2012年実施)

第 2 回統計検定 2 級 解答解説(2012 年実施)
問 1(解答番号 1 )
各都道府県の死亡者数を数の小さい方から順に並べた場合, 小さい方から 12 番目(全体の 1/4)
の死亡者数が第 1 四分位点になります。その値は 3.6 です。同様に, 中央値(第 2 四分位点)は 5.0,
第 3 四分位点は 5.6 となりますので, 四分位範囲は 第 3 四分位点 − 第 1 四分位点 = 2.0 となりま
す。よって, II と III は正解です。また, この分布は右に裾の長い分布なので, 平均 < 中央値 < 最
頻値 という関係にあります。よって平均は, 計算せずとも中央値 5.0 より小さいはずで, I は誤りに
なります。
なお, 四分位点は正確には 12 番目ではなく, 11 番目と 12 番目の間, になりますが, III の答えが
正しいことには変わりありません。
以上より, 正解は⃝
5 となります。
問 2(解答番号 2 )
2
と表しますと, 100X (X をセンチメートル
身長 X (メートルでの値)の平均を µX , 分散を σX
σX
ですが, 分母分子
µX
とも 100 倍になっているので, この値は変わりません。相関係数は, 体重を Y ,(平均 µY , 分散 σY2 )
2
で表し直した値)の平均は 100µX , 分散は 10000σX
となります。変動係数は
と表すと
∑
(Xi − µX )(Yi − µY )
√ √
r=
2
σX
σY2
となりますが, X → 100X と変換すると,
∑
∑
100
(Xi − µX )(Yi − µY )
(100Xi − 100µX )(Yi − µY )
√
√
√ √
=
=r
r′ =
2
2
10000σX
σY2
100 σX
σY2
となり, もとの相関係数と等しいことがわかります。以上より, I, IV が正しいので, 正解は⃝
4 とな
ります。
問 3(解答番号 3 )
次の図のように, データが変換されますので,
平均は変わます。
分散・標準偏差は, 平均と各データの距離は図のようにそのまま保存されますので, 変わりません。
相関係数は, 問 1 と問 2 の相関が逆になりますので, 変わります。
以上より正解は⃝
1 となります。
1
2
3
4
5
2
1
平均
5
4
3
平均
問 4(解答番号 4 ∼ 7 )
[1] 累積相対度数が 0.25 となるデータがある階級は, 350∼400 万円未満です。 4 の正解は⃝
1 となり
ます。
[2] 中央値がある階級は, 累積相対度数が 0.5 となるデータがある階級であり, 500∼550 万円未満で
す。 5 の正解は⃝
4 となります。
[3] 2007 年, 2009 年ともに, 平均と中央値の属する階級が異なるので, ベル型ではありません。中央
値 < 平均 の関係から, 右に裾が長いことがわかります。 6 の正解は⃝
4 となります。
[4] 分布の様子が最もわかるのは, 各階級の相対度数がわかる表 1 です。五数要約値とは「最小値,
第 1 四分位数, 中央値, 第 3 四分位数, 最大値」のことであり, Q − Q プロットとは, 次のようにし
て作成されるものです。
縦軸に 2009 年の分位数を, 横軸に 2007 年の分位数をとり(逆でも構いません), プロットした
点を結び, その線が y = x の離れ具合によって, 2 つの分布を比較できます。離れていない方が, 2
つの分布は似ている, ということになります。
五数要約値と Q − Q プロットでは, 情報量の多い五数要約値を用いる方がよいので, 7 の正解は
⃝
1 となります。
問 5(解答番号 8 )
母比率を p と表すと, 95 %信頼区間の幅は
√
2 × 1.96 ×
p(1 − p)
n
となります。この値は, p が 1/2 のときに最大となります。よって, p = 1/2 のときでも ±4 %以下
にするためには,
√
2 × 1.96 ×
を解いて,
1/2(1 − 1/2)
≤ 0.08
n
√
n ≥ 24.5 とすればよいです。 8 の正解は⃝
3 となります。
問 6(解答番号 9 )
箱ひげ図の作り方を復習して下さい。箱の中の線が中央値を示し, 箱の上端が第 3 四分位点, 下端
が第 1 四分位点を表します。
I は誤りです。
II は, 横浜のデータの第 1 四分位点が 15 度以上なので, それより下は全体の 1/4 もないはずです
ので, 誤りです。
III では, 札幌のデータの中央値が 10 を上回っていますので, データの半分以上が 10 以上にある
ことになります。よって正しいです。
以上より, 9 の正解は⃝
3 となります。
問 7(解答番号 10 ∼ 11 )
[1]
15 × 14 × 13
≈ 0.81
15 × 15 × 15
となりますので, 10 の正解は⃝
4 となります。
[2] 幾何分布の期待値になります。1 回の試行において 2 種類のカードのうちいずれかが出る確率は
2/15 なので, 期待値はその逆数の 7.5 になります。 11 の正解は⃝
2 となります。
問 8(解答番号 12 ∼ 14 )
[1] 箱の長さは四分位範囲に等しいのと, 中央値が箱の中の線のところなので, 12 の正解は⃝
5 とな
ります。
[2] H0 のもとでの t 統計量は,
154.4 − 160
= √
不偏分散/標本数
5.852 /20
t= √
標本平均 − µ
となります。これと同じものを探して, 13 の正解は⃝
1 となります。
[3] P 値の方が有意水準より小さいので, H0 は棄却されます。 14 の正解は⃝
3 となります。
問 9(解答番号 15 )
∫
3
1
[
1
0.5xdx = 0.5 × x2
2
]3
=2
1
となりますので, 15 の正解は⃝
4 となります。
問 10(解答番号 16 )
平均 25 のポアソン分布の分散は 25 ですので, 標準偏差は 5 となります。 16 の正解は⃝
2 となり
ます。
問 11(解答番号 17 )
自由度 29 の t 分布の上側 1 %点は 2.462, 上側 5 %点は 1.699 です。2.13 はこれらの値の間にあ
りますので, 17 の正解は⃝
2 となります。
問 12(解答番号 18 ∼ 19 )
[1] 全体の合計は 210, 賛成の合計は 42 + 39 = 81, 男性の合計は 42 + 88 = 130 なので, 求める期
81 × 130
待度数は
≈ 50.1 となります。 18 の正解は⃝
1 となります。
210
[2] χ2 統計量は
∑ (観測度数 − 期待度数)2
期待度数
ですので, 19 の正解は⃝
5 となります。
問 13(解答番号 20 )
n 個の世帯について, 各世帯の人数を X1 , X2 , · · · , Xn と表しますと, 人数の推定量は X =
X1 + X2 + · · · + Xn
と な り ま す 。そ の 期 待 値 E[X] = E[Xi ] = µ(母 平 均), 分 散 V [X] =
n
√
V [X]
1
V [Xi ] = σ 2 (母分散), 変動係数
です。よって,
n
E[X]
√
√
V [X]
V [Xi ]
1
1 σ
=√
=√
n E[Xi ]
nµ
E[X]
ですが, ここで母集団の変動係数(下線部)が 1.0 以下なので,
1
√ ≤ 0.05
n
より n ≥ 400 となります。 20 の正解は⃝
2 となります。
問 14(解答番号 21 ∼ 22 )
難問です。
[1] 入場者数を N 人としますと, i 番目の人の通し番号 Xi は区間 (1, N ) の離散型一様分布に従いま
N +1
す。その期待値は E[Xi ] =
です。よって, 通し番号の合計 S = X1 + X2 + · · · + X300 の期
2
N +1
ˆ と表し,
待値は E[S] = 300 ×
です。いま, N の推定量を N
2
ˆ =2× S −1
N
300
ˆ ] = N となり, N の不偏推定量になります。よって, 2 ×
としますと, E[N
答えとなります。 21 の正解は⃝
3 となります。
4510384
− 1 ≈ 30000 が
300
ˆ の標準偏差です。
[2] N の標準誤差とは, N
ˆ] =
V [N
22
× 300V [Xi ]
3002
ですが, ここで V [Xi ] は,
1 2
(1 + 22 + · · · + N 2 )
N
1
1
=
× N (N + 1)(2N + 1)
N
6
1
= (N + 1)(2N + 1)
6
E[Xi2 ] =
より,
V [Xi ] = E[Xi2 ] − (E[Xi ])2
1
1
= (N + 1)(2N + 1) − (N + 1)2
6
4
1
=
(N − 1)(N + 1)
12
√
ˆ ] ≈ 1000 を得ます。 22 の正解は⃝
となります。N ≈ 30000 を代入して, V [N
2 となります。
なお, N が非常に大きいことから, 離散型の一様分布ではなく連続型の一様分布とみなし,
V [Xi ] =
(N − 1)2
12
として, N ≈ 30000 を代入しても同じ答えが得られます。
問 15(解答番号 23 ∼ 25 )
[1]
I:点 (50, 50) を通る傾き 1 の直線を引くと, 全ての点がこの直線の上側にあることがわかります
ので, 正しいです。
II:正の相関があるのがみてとれるので,正しいです。
III:いくつかの点について縦軸と横軸の差をみると, 誤りであることがわかります。
以上より 23 の正解は⃝
2 となります。
[2]
88.6
≈ 0.86 となりますので, 24 の正解は⃝
4 となります。
10.2 × 10.1
[3] P 値の方が有意水準 0.05 より大きいので, H0 :「β = 1」を採択します。すると, y = α + x, す
なわち y − x = α(一定) となりますので, 25 の正解は⃝
3 となります。
問 16(解答番号 26 )
300
( 個の中の黒 BB 弾の数
) X は, 二項分布 B(300, 1/4) に従います。中心極限定理より, X は
1 3
1
N 300 × , 300 × ×
に従うと近似できます。よって,
4
4 4


1
1
X
−
300
×
90
−
300
×

4 ≥√
4 
 = P (Z ≥ 2)
P (X ≥ 90) = P 
√
1 3
1 3
300 × ×
300 × ×
4 4
4 4
となります(Z は標準正規分布に従う確率変数)
。この確率はおよそ 0.02 なので, 26 の正解は⃝
4と
なります。
問 17(解答番号 27 ∼ 28 )
[1]
1
(24.5 × 1 + 34.5 × 1 + · · · + 84.5 × 6) ≈ 68
25
より, 27 の正解は⃝
2 となります。
[2] 生データから求めた中央値は 71, 度数分布表から求められる中央値は 74.5 です。 28 の正解は
⃝
3 となります。
問 18(解答番号 29 ∼ 30 )
[1] F (9, 9) に従う確率変数が, 2.1089 以上の値をとる確率は, 1 − 0.8592 = 0.1408 です。いま両側
検定なので, P 値はこの値の 2 倍の 0.2816 とします。この値は有意水準 0.05 より大きいので, H0
を棄却できません。 29 の正解は⃝
3 となります。
[2] 母平均の差の検定における検定統計量は, H0 :「1 年生と 2 年生の記録に差がない」のもとで,
T = √(
9.38 − 8.51
)
1
1 0.6099 × 9 + 1.2862 × 9
+
10 10
10 + 10 − 2
となります。また, 検定に用いる t 分布の自由度は 10 + 10 − 2 = 18 です。下線部を計算すると
0.9481 になりますので, 30 の正解は⃝
3 となります。
問 19(解答番号 32 ∼ 35 )
[1] 短い, 長い, 短い, 長い,· · · と続いているかどうかを知りたいので, 時系列を扱う指標を用いま
す。それは ⃝
4 か⃝
5 なのですが, 待ち時間の値は常に正なので, 移動平均は 0 にはなりません。⃝
5
が最適です。 31 の正解は⃝
5 となります。
[2] 当てはまりの良さを調べる指標は決定係数です。 32 の正解は⃝
5 となります。
[3] 標本回帰方程式は yˆ = 33.4744 + 10.7296x であり, x = 2 を代入して, yˆ ≈ 55 を得ます。 33 の
正解は⃝
2 となります。
[4]
10.7296 ± t0.025 (270) × (係数の標準誤差)
{z
}
|
=0.3148
が回帰係数 β の 95 %信頼区間です。自由度 270 の t 分布は標準正規分布とほぼ一致するので, そ
の上側 2.5 %点は約 1.96 です。以上より, 34 の正解は⃝
4 となります。
[5] 視覚的に明らかに 2 つのクラスターができているので, 別々に分析した方がよさそうです。そこ
でデータをどのように 2 分するか, ですが, 噴出時間が説明変数であることと, 横で切るより縦で
切った方が, 間違ってもう一方のクラスターに入るデータが少なそうなことから, 縦に切った方がよ
いことがわかります。以上より, 35 の正解は⃝
1 となります。