第3回統計検定 2級 解答解説(2013年実施)

第 3 回統計検定 2 級 解答解説(2013 年実施)
問 1(解答番号 1 )
質的データや量的データは, 以下のように分類されています。
質・量
名称
特徴
質的
名義尺度
性別や職業のように, カテゴリーの違いだけを表す
質的
順序尺度
優・良・可のように順序に意味があるが, それらの間隔は同じでない
量的
間隔尺度
温度のように順序も間隔も意味があるが, 原点の位置はどこでもよい
量的
比率 (比例) 尺度
長さや重さのように, 原点の位置が決まっている間隔尺度のこと
以上より, 1 の正解は⃝
1 となります。
問 2(解答番号 2 ∼ 3 )
[1]
中央値が求まりやすいので求めますと, 小さい方から 24 番目のデータですので, およそ 80 校と
なります。したがってまず II が正しいことになります。
最大値は 435 ですので, III は誤りになります。
最後に I ですが, この分布の形状は右に裾が長いので, 平均の方が中央値より大きいと推測できま
す。実際に, おおよその値を計算してみると,
(30 + 40 + 40 + · · · + 440) ÷ 47 > 100
となります。したがって, I は誤りです。
以上より, 2 の正解は⃝
2 となります。
[2]
50 校以下が 9 校あるので, ⃝
2 か⃝
3 になります。101 校以上 150 校以下が 8 校あることもみて, 3
の正解は⃝
2 となります。
問 3(解答番号 4 )
箱ひげ図の最も高いところは, この図においては最大値を表していますので, I は正しいです。箱
ひげ図の正確な作り方もご参照下さい。
II のような, 何度の日が何日あったかということは箱ひげ図からはわかりませんので, II は誤り
です。
III に関して, 2012 年では 25 度が中央値なので, 全体の 1/2 が 25 度以下であることがわかりま
す。また,2013 年では第 1 四分位点が 25 度なので, 全体の 1/4 が 25 度以下であることがわかりま
す。よって III は正しいです。
以上より, 4 の正解は⃝
5 となります。
問 4(解答番号 5 )
相関係数は, 各変数を標準化しても値は変わりませんので, A と C の値は同じになります。なお,
D は, x, y を標準化したものをそれぞれ x′ , y ′ とおくと,
x′i =
xi − x
,
sx
yi′ =
yi − y
sy
であり, x′ = y ′ = 0 です。よって,
1 ∑ ′
(xi − x′ )(yi′ − y ′ )
n−1
1 ∑ ′ ′
=
xi · yi
n−1
∑
(xi − x)(yi − y)
1
=
n−1
sx · sy
Cov(x′ , y ′ ) =
となりますが, 最後の式に問題文にある sx と sy を代入すると, rxy と等しくなることがわかります。
以上より, 5 の正解は⃝
5 となります。
なお, 本問では分散, 共分散ともに不偏推定量を用いています。不偏でない分散・共分散(n − 1
で割らずに n で割るもの)か, それとも本問のような分散・共分散か, テキストや試験によってどち
らを使うかマチマチですので, 問題文をよく読んで間違えないようにして下さい(統計検定試験は
不偏推定量で統一されています)。
問 5(解答番号 6 ∼ 7 )
[1]
東京のデータを除くと相関係数は小さくなることが視覚的にわかりますので, ⃝
1 か⃝
2 か⃝
4 になり
ますが, 大きくは変わらないと考えられるので, 6 の正解は⃝
1 となります。これは視覚に訴える問
題ですので間違っても気にされない方がよいです。
[2]
まず, III はグラフからわかりませんので, 誤りです。
また, 縦軸と横軸の数値が大きく違うので, I とは言えません。I も誤りです。
II は, 実際におおよその中央値をみると, 男性が 19 くらい, 女性が 9 くらいですので, 正しい
です。
以上より, 7 の正解は⃝
2 となります。
問 6(解答番号 8 ∼ 9 )
[1]
1 回の試行につき, 的に当たるか当たらないか, の 2 種類の結果のどちらかしかありません。その
場合, 的に当たる回数 X は二項分布 B(10, 1/5) に従います。 8 の正解は⃝
2 となります。
[2]
( )x ( )10−x
( )x ( )10−x
1
4
10!
1
4
P (X = x) = 10 Cx
=
5
5
x!(10 − x)! 5
5
ですので, 9 の正解は⃝
4 となります。
問 7(解答番号 10 )
1×
1
3
1
3
11
+2× +3× +4× =
8
8
8
8
4
ですので, 10 の正解は⃝
4 となります。
問 8(解答番号 11 )
菓子 8 個の重さをそれぞれ X1 , X2 , · · · , X8 とし, 箱の重さを Y と表しますと, W = X1 + X2 +
· · · + X8 + Y も正規分布に従いますので, この期待値と分散を求めればよいです。期待値は
E[W ] = E[X1 + X2 + · · · + X8 + Y ]
= E[X1 ] + E[X2 ] + · · · + E[X8 ] + E[Y ]
= 90 × 8 + 30 = 750
となります。分散は, 各 X が独立なので,
V [W ] = V [X1 + X2 + · · · + X8 + Y ]
= V [X1 ] + V [X2 ] + · · · + V [X8 ] + V [Y ]
= 9 × 8 + 1 = 73
となります。以上より, 11 の正解は⃝
5 となります。
問 9(解答番号 12 )
ガンの発症確率を P (A)(= 0.07), 診断結果が陽性となる確率を P (B), 陰性となる確率を P (B)
と表すと, 求める確率は,
P (A ∩ B)
P (B| A) × P (A)
=
P (B)
P (B| A) × P (A) + P (B| A) × P (A)
0.82 × 0.07
=
0.82 × 0.07 + 0.13 × (1 − 0.07)
P (A| B) =
となりますので, 12 の正解は⃝
1 となります。
なお, 表中の値が P (B| A) などの条件付確率であることは, 横に加えて 1 になることからわかり
ます。条件付確率でなければ, 全て加えて初めて 1 になるはずです。
問 10(解答番号 13 ∼ 14 )
[1] 級代表値として各階級の中央値を用いますと,
0.29 × 0.5 + 0.46 × 1.5 + 0.16 × 2.5 + · · · + 0.01 × 5.5 = 1.6
となります。 13 の正解は⃝
3 となります。
[2]
各階級では駐車時間は一様分布に従っていると考えます。このような仮定はよくあります。いま
は単位を分にしていますので, 例えば 0 時間以上 1 時間未満の階級では, 区間 (0, 60) の一様分布に
従っていて, 1 時間以上 2 時間未満の階級では, 区間 (60, 120) の一様分布に従っている,· · · と考え
ます。すると, 求める確率は,
0.46 ×
120 − 100
+ 0.16 + 0.05 + 0.03 + 0.01 ≈ 0.40
120 − 60
となります。 14 の正解は⃝
3 となります。
問 11(解答番号 15 ∼ 17 )
[1]
母比率の区間推定です。標本比率を pˆ, 標本数を n と表しますと, 母比率 p の 95 %信頼区間は,
√
pˆ ± 1.96 ×
pˆ(1 − pˆ)
n
で表されます。n = 1008, pˆ = 0.62 より, 15 の正解は⃝
2 となります。
[2] α %信頼区間の幅は,
√
2 × Z(1−α/100)/2
pˆ(1 − pˆ)
n
となります。この値は, n が大きくなると小さくなるので, I は正しいです。
また, 若者の割合を増やすことでどうなるかはこれからはわかりませんので, II は誤りです。
信頼係数 α を大きくしますと, 上記の Z の値は大きくなります(95 %と 99 %で確かめられると
いいです)。よって III も誤りです。
以上より, 16 の正解は⃝
1 となります。
[3]
(
)
p(1 − p)
中心極限定理により, pˆ は正規分布 N p,
に従います。よって,
n









 pˆ − p
0.62
−
p

√
√
P (ˆ
p > 0.62) = P 
>


p(1 − p) 
 p(1 − p)




n
n
|
{z
}
N (0,1) に従う
となります。p = 0.6, n = 1008 を代入すると, Z を標準正規分布に従う確率変数として, P (ˆ
p>
0.62) ≈ P (Z > 1.3) となります。標準正規分布表より, この確率はおよそ 0.1 ですので, 17 の正解
は⃝
3 となります。
問 12(解答番号 18 ∼ 19 )
[1]
不偏分散は,
1
{(28 − 25.4)2 + (20 − 25.4)2 + · · · + (27 − 25.4)2 } = 10.3
4
√
となりますので, 求める標準偏差は 10.3 ≈ 3.2 となります。 18 の正解は⃝
3 となります。なお, 女
性の方の標準偏差を検算すると, 不偏分散を用いていることが確かめられます。
[2]
⃝,
3 ⃝
4 がナンセンスで, ⃝
5 についても, 平均が近いので変動係数を比べる必要はありません。⃝
1か
⃝
2 となりますが, データの大きさが小さいのと, 母分散が不明なので, 母平均の差の検定における t
値を求めてみます(母分散は男性と女性でほぼ等しいので, 以下の統計値を用いることができます)
。
√
5 + 5 − 2(25.4 − 28.0)
≈ −1.4
t = √(
)
1 1
+
(4 × 10.3 + 4 × 2.652 )
5 5
となります。自由度 (5 + 5 − 2 =)8 の t 分布の下側 2.5 %点 −2.306 より大きいので, 有意水準 2.5
%の片側検定では, 有意差があるとは言えません。このことと同じ内容は, ⃝
1 になります。
19 の正解は⃝
1 です。
問 13(解答番号 20 )
⃝
1 :街頭でのアンケート調査は, 調査者が恣意的に選ぶ有意抽出法の方が用いられます。
⃝
2 :層化抽出法, 多段抽出法ともに, 各層, 各抽出単位における誤差分散については, 全体に比べ
て小さくできます。ただ, 層間の変動など他の変動も加え合わせると, 全体の分散は小さくなりませ
ん(一元配置分散分析をご参照下さい)。
⃝
3 :系統抽出法は, 携帯電話などが普及していないときに, 世帯調査で何世帯か毎に調査するとき
などに用いられた方法です。最初の一つを無作為抽出したら,あとはその一つから一定の間隔で抽
出していきます。
⃝
4 :クラスター抽出とは, 母集団からいくつかの集落(クラスター)を抽出し, そのクラスターの
メンバー全員を対象に調査する方法です。あらかじめクラスター毎の名簿があれば, 時間と費用が
節約できますが, クラスター自体がもつバイアスのために, 推定の精度は落ちます。
⃝
5 :層化抽出法では, 層内はなるべく均一にしないといけないので, あらかじめ層を決めておかな
いといけません(男性層と女性層,など)。
20 の正解は⃝
4 です。
問 14(解答番号 21 )
第 2 種の過誤とは, 「実際は対立仮説が正しいのに, 間違って帰無仮説を採択してしまうこと」で
す。ここで当てはめますと, 「対立仮説が正しい=新しいキャンペーン効果の方が高い」にも関わら
ず, 「新旧 2 つのキャンペーンに差がない」としてしまうことです。
21 の正解は⃝
1 となります。
問 15(解答番号 22 ∼ 24 )
[1]
1 行 1 列の期待度数は,
209 × 256
≈ 89 です。 22 の正解は⃝
4 となります。
600
[2]
m × n の分割表において, χ2 検定の自由度は (m − 1) × (n − 1) ですので, この場合自由度は 4
になります。 23 の正解は⃝
2 となります。
[3]
自由度 4 の χ2 分布の上側 5 %点は 9.49, 上側 10 %点は 7.78 で, どちらも χ2 値 3.606 より大き
いので, どちらも有意ではありません。 24 の正解は⃝
4 となります。
問 16(解答番号 25 ∼ 26 )
[1]
標本比率 pˆ, 標本数 n と表すと, 母比率 p の 95 %信頼区間は,
√
pˆ ± 1.96 ×
pˆ(1 − pˆ)
n
で表されます。pˆ = 0.25, n = 600 なので, 25 の正解は⃝
5 となります。
[2] 信頼区間の幅は,
√
2 × 1.96 ×
ですので,
√
2 × 1.96 ×
pˆ(1 − pˆ)
n
pˆ(1 − pˆ)
≤ 0.04
n
すなわち
(
n≥
2 × 1.96
0.04
)2
× pˆ(1 − pˆ)
となります。pˆ(1 − pˆ) は 0 ≤ pˆ ≤ 0.3 において単調増加なので, pˆ = 0.3 のときに最大になります
ので,
(
n≥
2 × 1.96
0.04
)2
× (0.3 × 0.7) = 2016
でなければなりません。 26 の正解は⃝
4 となります。
問 17(解答番号 27 ∼ 29 )
[1]
同じ生徒の 2 つのテストをみているので, 対応のある検定になります。差をみたいので, 平均差を
みます。 27 の正解は⃝
1 となります。
[2]
帰無仮説は⃝
3 のように設定します。 28 の正解は⃝
3 となります。
[3]
用いる t 分布の自由度は 19 − 1 = 18 なので, まず A3 を選びます。
B は B2 が正しいです。
C2 の 5 %は 2.5 %の誤りです。
以上より, 29 の正解は⃝
5 となります。
問 18(解答番号 30 ∼ 31 )
[1]
母平均の差の検定の検定統計量がわかっていれば解けます。プールした分散は, 各分散(不偏分
散です)を用いて,
s2 =
(8 − 1)s2D + (6 − 1)s2N
8+6−2
です。 30 の正解は⃝
4 となります。
[2]
ここで, この検定統計量を導出してみます。
D 群の母平均を µD , L 群の母平均を muL と表しますと,
(
)
σ2
y D は正規分布 N µD , D に
8
(
)
σ2
y N は正規分布 N µN , N に
6
従います。これらは独立なので,
y D − y N は正規分布 N
(
)
σ2
σ2
µD − µL , D + L に
8
6
2
2
従います。ここで, σD
= σL
= σ 2 と表しますと,
y D − y N は正規分布 N
) )
(
(
1 1
+
σ2 に
µD − µL ,
8 6
従うことになります。一方,
(8 − 1)s2D
は自由度 (8 − 1) のχ2 分布に
2
σD
(6 − 1)s2N
は自由度 (6 − 1) のχ2 分布に
2
σN
従います。これらは独立なので, χ2 分布の再生性より,
(8 − 1)s2D
(6 − 1)s2N
7s2 + 5s2
+
= D 2 N は自由度 (8 − 1) + (6 − 1) = 7 + 5 の χ2 分布に
2
2
σD
σN
σ
従います。ここで,
「Z が標準正規分布に従い, W が自由度 n の χ2 分布に従い, Z と W が独立ならば, T = √
Z
W/n
は自由度 n の t 分布に従う。」
という定義により,
(y D − y N ) − (µD − µL )
√(
)
1 1
+
σ2
8 6
T = √
7s2D + 5s2N
1
×
σ2
7+5
は自由度 7 + 5 の t 分布に従います。σ 2 が約分で消えますので, 帰無仮説 H0 :「µD = µL 」のもと
では
yD − yN
T = v(
)
u
u 1 1 7s2D + 5s2N
u
+
t 8 6
7+5
|
{z
}
=s2
が自由度 7 + 5 の t 分布に従うことになります。
31 の正解は⃝
3 となります。
問 19(解答番号 32 ∼ 35 )
[1]
分散分析における「バス利用」の平方和と残差の平方和との和は, 全変動になります。
「バス利用」で説明できる変動
決定係数は,
ですので, 32 の正解は⃝
3 となります。
全変動
なお, [4] の問題文中にありますように, 質的変数もコード化することで量的変数と同等に扱えま
すので, ⃝
4 は誤りです。
[2]
標本回帰直線の式は,
Y = −16945.4 + 4124.2X
であることが表からわかります。Y が家賃, X が部屋面積です。X が 1 増えると, 家賃は 4124.2
だけ上がります。
33 の正解は⃝
3 となります。
[3]
説明変数としてどちらがよいかは, 決定係数で判断できます。部屋面積の決定係数は 0.9106, バ
ス利用の決定係数は [1] より
8417798830
≈ 0.6 なので, 部屋面積の方を説明変数と
8417798830 + 5996622222
すればよいことがわかります。
34 の正解は⃝
4 となります。
[4]
説明変数の数まで決めたい場合は, 自由度修正済み決定係数を用います。
35 の正解は⃝
2 となります。