統計検定 2級 解答解説(2014年11月30日実施)

統計検定 2 級 解答解説(2014 年 11 月 30 日実施)
問 1(解答番号 1 )
I は正しいです。2.25 という値からは何の情報も得られません。
II:「はい」と答えた人が 65 %であったという情報が得られます。II は誤りです。
III:受験者が多い場合, 試験の点数を離散型変数として扱ってヒストグラムを描いて分析するより
も, 連続型変数とみなして分布を分析する方が分析しやすい場合があります。III は誤りです。
以上より, 1 の正解は⃝
1 となります。
問 2(解答番号 2 ∼ 3 )
[1]
まずヒストグラムですが, 1.3∼1.4 の階級をみるとよいです。1.3 はこの階級に含まれ, 1.4 は含
まれませんので, この階級の度数は 2 になります。よってまず (A) が選ばれます。
次に箱ひげ図ですが, 測定値を小さい順に並べて, 小さい方からみて全体の 1/4 にあたるところが
第 1 四分位数 Q1 です。本問の場合, Q1 として, 6 番目の値(1.44)を用います。
以下をご覧ください。番号は小さい方から並べたときの順番です。
1, 2, 3, 4, 5, 6, 7, 8, 9,
10, 11
, 12, 13, 14, 15, 16, 17, 18, 19, 20
この 2 つの値の中央に中央値
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 中央値, 中央値, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20
これらの値のちょうど中央が Q1
これらの値のちょうど中央が Q3
そして, 第 3 四分位数(小さい方からみて全体の 3/4 にあたるところ, Q3 を表すことにしま
す)としては, 15 番目の値 1.54 を用います。四分位範囲 R = Q3 − Q1 ですので, R = 0.1,
Q1 − 1.5R = 1.29 です。これより小さい値は 2 つあり, ひげの下限は 1.29 より大きい測定値 1.30
なので, (イ)が答えになります。
以上より, 2 の正解は⃝
2 となります。
[2]
左に裾が長い単峰性のヒストグラムや分布では, 平均値 < 中央値 < 最頻値 という関係があり
ます。
3 の正解は⃝
3 となります。
問 3(解答番号 4 )
横軸にあたる累積世帯比率は表の 24.9, 31.0, · · · とある列です。
縦軸にあたる累積再配分所得比率は表の 14.1, 17.2, · · · とある列です。
これらをプロットしているグラフは⃝
1 です。なお, 対角線は完全平等線といわれます。
以上より, 4 の正解は⃝
1 となります。
問 4(解答番号 5 )
本問の方法は多段抽出法です。 5 の正解は⃝
4 となります。
問 5(解答番号 6 ∼ 7 )
[1]
聞く人が男性であるという事象を m, 女性であるという事象を f , コーヒーを飲んでいるという事
象を A, 紅茶を飲んでいるという事象を B としますと,
7
8
, P (f ) =
15
15
5
2
P (c| m) = , P (c| f ) =
8
7
P (m) =
となります。
問われている確率は P (c| m) なので, 6 の正解は⃝
2 となります。
[2]
各事象はすべて独立ですので,
5 5
×
8 7
3 2
(男性が紅茶を, 女性がコーヒーを飲んでいる確率) = P (t| m) × P (c| f ) = ×
8 7
(男性がコーヒーを, 女性が紅茶を飲んでいる確率) = P (c| m) × P (t| f ) =
となります。これらは排反ですので, 加え合わせると答えになります。
7 の正解は⃝
4 となります。
問 6(解答番号 8 ∼ 11 )
[1]
以下のデータの平均を求めることになります。
0, 0, 0, · · · , 0, 1, 1, · · · , 1, 2, 2, · · · , 2, · · · , 6, 6, 6, 6, 6, 6
55 個
144 個
140 個
6個
よって,
(0 × 55 + 1 × 144 + 2 × 140 + · · · + 6 × 6) ÷ 500 = 2.00
となります。 8 の正解は⃝
3 です。
[2]
母数 λ のポアソン分布の確率関数は,
P (X = k) = e−λ
λk
k!
です。 9 の正解は⃝
5 です。
[3]
母数 λ のポアソン分布の期待値 E[X], 分散 V [X] はともに λ です。ここで V [X] = E[X 2 ] −
(E[X])2 ですので,
E[X 2 ] = V [X] + (E[X])2 = λ + λ2
になります。 10 の正解は⃝
4 です。
[4]
検定統計量としては,
χ2 =
(55 − 67.7)2
(144 − 135.3)2
(6 − 8.3)2
+
+ ··· +
≈ 4.498
67.7
135.3
8.3
を用い, 自由度 5 の χ2 分布の上側%点と比較します。
自由度に関して, セルが 7 つあるので, 7 − 1 = 6 とし, さらに, 母数を 1 つ推定値で推定している
ので, 1 減らして, 5 とします(推定した母数の数だけ自由度を減じます)。
以上より, 11 の正解は⃝
5 です。
問 7(解答番号 12 ∼ 13 )
[1]
1 人が 184cm より低い確率は,
P
(
)
184 − 174
Z<
9
となり, 16 人全員が 184cm より低い確率は,
{ (
)}16
184 − 174
P Z<
9
となります。この余事象を考えて, 12 の正解は⃝
2 です。
[2]
平均 µ, 分散 σ 2 の分布からの標本 Xi の期待値は µ, 分散は σ 2 になり, n 個の独立な標本
X1 , X2 , · · · , Xn の標本平均の期待値は µ, 分散は
σ2
になります。 13 の正解は⃝
2 です。
n
問 8(解答番号 14 )
1 回の試行で 1 の目が出る確率を p, 1 の目が出る回数を X としますと, n が大きいとき, 中心極
p(1 − p)
限定理により, X は平均 np, 分散
の正規分布に従います。n = 640, p = 1/8 を代入しま
n
すと, 平均は 80, 分散は 70 になりますので,
)
(
90 − 80
≈ P (Z ≥ 1.2) ≈ 0.12
P (X ≥ 90) = P Z ≥ √
70
となります(Z は標準正規分布に従う確率変数です。以下同じ)。
14 の正解は⃝
2 です。
問 9(解答番号 15 ∼ 17 )
[1]
(
P (X ≤ 94) = P
94 − 100
Z≤
4
)
= P (Z ≤ 1.5) = 0.0668
ですので, 100 × 0.0668 ≈ 7 となります。 15 の正解は⃝
4 です。
[2]
標本平均 X は平均 100, 分散 42 /100 の正規分布に従います。
(
P (X ≤ 98.8) = P
98.8 − 100
Z≤ √
42 /100
)
= P (Z ≤ −3) = 0.0013
ですので, 16 の正解は⃝
5 です。
[3]
検定の基本的な考え方です。 17 の正解は⃝
3 です。
問 10(解答番号 18 ∼ 21 )
[1]
正規分布においては中央値と平均は一致します。中央値は箱ひげ図の中央の線に当たりますので,
A と B は b と c が該当します。どちらがどちらかは, 箱ひげ図でわかるのは分散ではなく四分位範
囲なので, 何ともいえませんが, 分散が小さい B が c に当たるのではないか, と推測されます。
18 の正解は⃝
2 になります。
[2]
問題文にある分散を不偏分散としますと,
s2 =
20 × 0.145 + 15 × 0.095
≈ 0.124
21 + 16 − 2
となります。統計検定では不偏分散を用いていますので, 19 の正解は⃝
2 になります。
[3]
検定統計量は⃝
3 になります。過去問の解説(特に第 1 回)もご参照下さい。
20 の正解は⃝
3 になります。
[4]
帰無仮説 H0 :「2 つの品種の該当する部位の長さに差はない」
対立仮説 H1 :「2 つの品種の該当する部位の長さに差がある」
としますと, 両側検定になります。
自由度 35 の t 分布の下側 2.5 %点は −2.030 であり, −2.030 < −1.235 < 2.030 より, H0 は棄却
されず, 「差があるとはいえない」です。
21 の正解は⃝
4 になります。
問 11(解答番号 22 ∼ 29 )
[1-1]
これは計算するしかないです。
(90 + 100 + 130 + · · · + 140) ÷ 50 = 100.2
となります。工夫で少しでも楽に計算して下さい。
22 の正解は⃝
5 になります。
[1-2]
標本分散(不偏分散です)を U 2 , 母分散を σ 2 と表しますと,
χ2 =
49U 2
σ2
は自由度 49 の χ2 分布に従いますので, このことを用いて 95 %信頼区間を求めます。
χ20.975 (49) <
49U 2
< χ20.025 (49)
σ2
を σ 2 について整理して,
49U 2
49U 2
2
<
σ
<
χ20.025 (49)
χ20.975 (49)
となります。
23 の正解は⃝
3 になります。
[1-3]
x−µ
√
が自由度 49 の t 分布に従うことを用います。95 %信頼区間なので, 用いる t 分布の
U 2 /50
%点は上側, 下側 2.5 %点になります。
24 の正解は⃝
1 になります。
25 の正解は⃝
3 になります。
[2-1]
母集団の比率を p, 標本比率を pˆ と表しますと, p の 95 %信頼区間は,
√
pˆ − Z0.025 ×
pˆ(1 − pˆ)
< p < pˆ + Z0.025 ×
50
√
pˆ(1 − pˆ)
50
となります。pˆ = 0.3 を代入し, 0.173 < p < 0.427 を得ます。
26 の正解は⃝
5 になります。
[2-2]
⃝,
1 ⃝,
2 ⃝
5 はナンセンスです。なお, ⃝
5 にある「比率の推定値の標本誤差」とは, pˆ の標準偏差の
ことです。
⃝
3 と⃝
4 ですが, さきほどの信頼区間の式に p = 0.4 を代入しますと, 「娯楽」の比率の信頼区間は
(0.331, 0.469) となり, [2-1] の範囲と大きくかぶっています。ということは, 実は「暇つぶし」の母
比率は 0.4 で, 「娯楽」の母比率は 0.35, などのようになっているかもしれません。
27 の正解は⃝
4 になります。
[3-1]
例えば「あった方がよい」「男性」のセルの期待度数は,
30 × 15
=9
50
となります。これで答えが 1 つに決まります。
28 の正解は⃝
1 になります。
[3-2]
χ2 値は問題文にあるような計算式で計算されますので, 6.60 です。この独立性の検定では, χ2 値
が大きければ大きいほど, 無関係」とはいえなくなってきますので, この値が大きすぎないかどうか
だけが焦点になります。したがって, 下側%点を考える必要はないので, 常に右片側検定になり, 本
問の場合上側 5 %点をみることになります。
29 の正解は⃝
3 になります。
問 12(解答番号 30 ∼ 31 )
[1]
まず直線の傾きですが, 例えば国民可処分所得 x が 300, 000∼350, 000 のところをみますと, 家計
30, 000
= 0.6 になります。
50, 000
a の値ですが, 例えば (x, y) = (350, 000, 250, 000) を用いて,
消費支出 y はおよそ 30, 000 増えていますので, およそ
250, 000 = a + 0.6 × 350, 000
より a = 40, 000 となります。これらに最も近い選択肢は⃝
2 です。
30 の正解は⃝
2 になります。
[2]
縦軸, 横軸ともに 1 のところをみるとよいです。
例えば(ア)では, 横軸の値が 1 より小さいプロットが 3 つあります。これは, 国民可処分所得が
前年より小さかったときが 2 回あったということです。それは 1990 年代です。
(イ)はどちらも常に増加しているので, 1980 年代になります。
以上より, 31 の正解は⃝
2 になります。
問 12(解答番号 32 ∼ 35 )
[1]
やや直感に頼るところもあります。 32 の正解は⃝
4 になります。
[2-1]
決定係数が該当します。 33 の正解は⃝
1 になります。
[2-2]
母回帰方程式
Y = α + βX + ε
において, 誤差項 ε が標本毎に独立に正規分布 N (0, σ 2 )(σ 2 は定数)に従うとしますと, 回帰係数
の推定量(標本から得られる回帰係数)α
ˆ , βˆ は正規分布に従います。
本問の場合, 詳細は非常に長くなりますので割愛しますが, 男子, 女子それぞれの回帰係数の推定
量 βˆ(1) , βˆ(2) は正規分布に従います。すると, βˆ(1) − βˆ(2) も正規分布に従います。実際は t 分布を
用いるのですが, このことを利用して, それぞれの母回帰係数について「β (1) = β (2) 」を検定するこ
とができます。
34 の正解は⃝
2 になります。
[3]
本問における重回帰モデルは, 体重 Y , 身長 X, 性別 Z (男性ならば Z = 1, 女性ならば Z = 0)
と表しますと,
Y = α + β (1) X + β (2) Z + β (3) XZ + ε · · · (a)
となっています。これらの係数を最小 2 乗法で推定するには, 単回帰と同様, 回帰残差の 2 乗和を最
小にするように決定すればよいです。最小 2 乗法を用いていた場合, そうして決定された値が表に
書かれています。ここで, 標本回帰方程式を
Yi = α
ˆ + βˆ(1) Xi + βˆ(2) Zi + βˆ(3) Xi Zi · · · (b)
と表しておきます(回帰残差は書いていません)。
I は, 誤りです。本問のように, ダミー変数として用いて, 意味のある分析ができます。
II に つ い て, (b) に 女 性 の デ ー タ (X1f , Y1f ), (X2f , Y2f ), · · · を 代 入 し ま す と, Y1f = α
ˆ+
(1)
β X1f , Y2f = α
ˆ + βˆ X2f , · · · となります。これらから得られる切片の推定量は, (a) の α
ˆ(1)
の推定量そのものです。II は誤りです。偶然ではありません。
III について, (b) に男性のデータ (X1m , Y1m ), (X2m , Y2m ), · · · も代入しますと,
Y1m = α
ˆ + βˆ(2) + (βˆ(1) + βˆ(3) )X1m
Y2m = α
ˆ + βˆ(2) + (βˆ(1) + βˆ(3) )X2m
Y3m = α
ˆ + βˆ(2) + (βˆ(1) + βˆ(3) )X3m
···
Y1f = α
ˆ + βˆ(1) X1f
Y2f = α
ˆ + βˆ(1) X2f
Y3f = α
ˆ + βˆ(1) X3f
···
となります。男性だけのデータを用いると回帰係数として βˆ(1) + βˆ(3) が, 女性だけのデータを用い
ると回帰係数として βˆ(1) が得られますので, βˆ(3) は, 男性と女性の回帰係数の差に対応していると
いえます。III は正しいです。
以上より, 35 の正解は⃝
3 になります。(以上です)