(回帰分析など)

経済と経営のための統計学
2015 年度 美添泰人
第 (9) 回 : 仮説検定(母集団比率,母集団平均,回帰分析など)
(Reading Assignment: 統計学基礎 第 5 章)
基本事項 帰無仮説 H0 と対立仮説 H1 ,有意水準 α,棄却 (reject) と受容 (accept),第 1 種過誤(生産者危
険)と第 2 種過誤(消費者危険),検定統計量と棄却域,片側検定と両側検定.
正規分布の平均に関する検定
(1) その1.分散 σ 2 既知,両側対立仮説
x1 , · · · , xn ∼ N (µ, σ 2 ) (iid) として,標本平均 x̄ を利用する.H0 : µ = µ0 , H1 : µ ̸= µ0 の
x̄ − µ0
√ ∼ N (0, 1) とすれば
とき.仮説 H0 の下で x̄ ∼ N (µ0 , σ 2 /n) だから,標準化して z =
σ/ n
Pr{|z| < 1.96} = 0.95 である.珍しさを測る尺度として有意水準を 5% (α = 0.05) とするな
ら,観測された x̄ から求めた z の絶対値が 1.96 より大きいとき,仮説 H0 を棄却する.結
√
√
論として次の棄却域が得られる:|x̄ − µ0 | > 1.96σ/ n (近似的には |x̄ − µ0 | > 2σ/ n でも
良い)
(2) その2.分散 σ 2 既知,片側対立仮説
製品の寿命の長さなど品質を保証する問題では,片側対立仮説が自然なことがある.H0 : µ =
µ0 , H1 : µ < µ0 のときには, x̄ が小さくなることは, H1 の場合は H0 の場合よりも起
√
こりやすい.Pr{x̄ < µ0 − 1.645 σ/ n} = 0.95 だから,有意水準が 5%なら,棄却するのは
√
x̄ < µ0 − 1.645 σ/ n のときとなる.
(3) その3.分散 σ 2 未知,両側対立仮説 H1 : µ ̸= µ0
∑
σ 2 が未知だから,標本平均 x̄ とともに,標本不偏分散 s2 = (xi − x̄)2 /(n − 1) を利用する.
.. σ とすればよい.z = x̄ −√µ0 として,棄却域は |z| > 1.96
n が大きいとき.大数の法則から s =
s/ n
で与えられる.
x̄ − µ0
√ とすると,s2 の確率的な変動が大きいため,t は正規分
n が比較的小さいとき. t =
s/ n
布とは異なり,t 分布と呼ばれる確率分布に従う.そこで正規分布の Pr{|z| > z0 } = α に代
えて,t 分布の Pr{|t| > t0 } = α となる t0 を用いる.t0 の値は自由度 df = (n − 1) に依存し
√
て決まる.結論として,棄却域は次の形である:|x̄ − µ0 | > t0 s/ n.なお,df が大きくなる
と t 分布は正規分布に近づく.n >
(t 分布については
= 30 なら t0 = 2 を用いることができる.
PC 演習:グラフを描く,乱数を発生させる,外れ値が多い,自由度と分位点の変化.
)
(4) 正規分布の平均の差に関する仮説 H0 : µ1 = µ2 の検定(2 標本問題)
共通の分散 σ 2 を持ち,平均が異なる可能性がある場合は,2 つの母集団からの無作為標本を
∑
x1 , · · · , xn1 ∼ N (µ1 , σ 2 ) (iid),y1 , · · · , yn2 ∼ N (µ2 , σ 2 ) (iid) として,標本平均 x̄ =
xi /n1
∑
2
2
と ȳ =
yi /n2 を利用する.このとき x̄ ∼ N (µ1 , σ /n1 ) と ȳ ∼ N (µ2 , σ /n2 ) は独立だか
ら,その差は d = x̄ − ȳ ∼ N (µ1 − µ2 , (1/n1 + 1/n2 )σ 2 ) にしたがう.仮説 H0 の下では
d = x̄ − ȳ ∼ N (0, (1/n1 + 1/n2 )σ 2 ) となることから,有意水準 5%の棄却域は次の式で与えら
√
れる:|d| > 2 σ 1/n1 + 1/n2
1
任意の分布の母集団平均 µ に関する検定(n が十分大きい場合) x1 , · · · , xn を,平均 µ,分散
∑
σ 2 を持つ母集団からの無作為標本 (iid) として,標本平均 x̄ と標本分散 s2 = (xi − x̄)2 /n を利
用する.n が大きいから,不偏分散を用いてもほとんど違いはなく,大数の法則から σ = s と仮
定して良い.仮説を H0 : µ = µ0 , H1 : µ ̸= µ0 として.中心極限定理を用いると,仮説 H0 の
x̄ − µ0
√ ∼ N (0, 1) とすれば
下では近似的に x̄ ∼ N (µ0 , s2 /n) となるから,これを標準化して z =
s/ n
Pr{|z| < 1.96} = 0.95 である.片側対立仮説の場合も同様である.
二項分布 B(n, θ) における母集団比率 θ の仮説検定 n が大きい場合,仮説 H0 : θ = θ0 の下で
θ̂ = x/n ∼ N (θ0 , θ0 (1 − θ0 )/n) となる.これから,両側対立仮説 H1 : θ ̸= θ0 の場合は,棄却域
は次のように与えられる.
√
√
θ0 (1 − θ0 )
θ0 (1 − θ0 )
|θ̂ − θ0 | > 1.96
, あるいは近似的に |θ̂ − θ0 | > 2
n
n
回帰モデルにおける仮説検定
(1) 最も基本的な単回帰モデルでは,説明変数 x によって,応答変数(従属変数) y が次の関係
式で定められる.
ϵi ∼ N (0, σ 2 )
yi = α + βxi + ϵi ,
(i = 1, · · · , n)
ここで誤差項 ϵi は互いに独立と仮定される.標準的な仮定では説明変数 x はあらかじめ選ば
れて固定された値とされるが,この仮定を緩めて x も確率的に変動するとしてもよい.ただ
しその場合には x は ϵ と独立であり,推定したい母数 (α, β, σ 2 ) とは無関係な確率分布にし
たがうものとする.たとえば,無作為に抽出した n 世帯に関して,今月の収入 y と消費支出
x との関係を表す消費関数 y = α + βx を回帰分析を用いて推定する場合は,(x, y) ともに確
率的に変動するが,この場合でも標準的な回帰分析モデルの結果が利用できる.
未知の母数(回帰係数)α, β のうち,α よりも β に関心があることが多い.
(2) 推定方法 最小二乗法を用いると β の推定量は β̂ = sxy /s2x = Txy /Txx ,定数項(切片)α の
推定量は α̂ = ȳ − β̂ x̄ と定められる.
∑
∑
ただし Txy = ns2x = ni=1 (xi − x̄)(yi − ȳ),Txx = nsxy = ni=1 (xi − x̄)2 である.
(3) 誤差項 ϵi を想定しているモデルでは,最小二乗法によって得られた α̂, β̂ は正規分布にした
がう確率変数であり,β の不偏推定量である.
β̂ の期待値と分散は次の式で与えられる.
E(β̂) = β,
var (β̂) = σ 2 (Txx )−1
(4) 誤差項 ϵi の分散 σ 2
残差 ei = yi − ŷi = yi − (α̂ + β̂xi の平方和から σ 2 の不偏推定量 s2 が求められる.
s2 =
1 ∑
1 ∑ 2
ei =
(yi − ŷi )2
n−2
n−2
n
n
i=1
i=1
(5) β̂ の区間推定:β̂ の分散 var (β̂) = σ 2 (Txx )−1 に含まれる未知の σ 2 を推定量 s2 で置き換え
て,β̂ の標準誤差 se(β) = s2 (Txx )−1 が求められ,さらに (β̂ − β)/se(β) は自由度 df = n − 2
の t 分布に従うことも導かれる.
以上から 95% 区間は,t0 を自由度 df = n − 2 の t 分布における上側 2.5%点として次の形と
なる.β̂ ± t0 se(β).
2
(6) β̂ に関する仮説検定
仮説 H0 : β = β0 に関する両側検定の受容域は次の式で与えられる.β0 ± t0 se(β)
(7) 複数の説明変数 x1 , . . . , xp を持つ重回帰モデル.
yi = β0 + β1 x1i + . . . + βp xpi + ϵi ,
ϵi ∼ N (0, σ 2 )
(i = 1, · · · , n)
切片以外の回帰係数を並べたベクトルを,β = (β1 , . . . , βp ) と書くと回帰係数の最小二乗法に
よる推定量(ベクトル表示)は次の式になる.
β̂ = (Sxx )−1 Sxy
ただし Sxx は x1 , . . . , xp の分散共分散を並べた p × p の行列,ただし Sxy は y と x1 , . . . , xp
の共分散を並べた p 次元ベクトルである.
(8) いくつかの例について,推定と検定の実際を学習する.
練習問題
問題 (1) ある大学では新入生を対象として毎年同じ英語の試験を実施している.過去の試験の成
績 x は平均 450 点,標準偏差 80 点の正規分布で近似される.今年の新入生 n = 36 人
のクラスで試験の結果を調べたところ,クラスの平均点は x̄ = 490 点であった.今年の
新入生全体の平均点の信頼係数 95%の信頼区間を求めよ.
問題 (2) 前問で,この学年の学生は英語の実力が従来より高いと言えるか.有意水準 5%で検定
せよ.
問題 (3) ある製品の特性 x は,技術的に管理する平均 µ と,一定の標準偏差 σ = 10 をもつ正規
分布にしたがう.ある日に製造された製品から無作為に n = 16 個を抽出して検査した
ところ,その平均は x̄ = 207 であった.この日の製品全体の平均 µ の信頼係数 95%の
信頼区間を求めよ.
問題 (4) 前問で,この日に製造された製品が標準的な規格 µ = µ0 = 200 を満たしているかどう
か,有意水準 5%で検定せよ.
問題 (5) 前問で σ は未知として,標本から計算された不偏分散が s2 = 100 となったものとする.
このとき,仮説 H0 : µ = 200 を,有意水準 5%で検定せよ.
問題 (6) ある教育方法を比較するために生徒を無作為に n1 人, n2 人の二つの組に分け,1 学期間
教えた後で共通試験を実施した結果,各組の平均点は x̄1 , x̄2 となった.x1 ∼ N (µ1 , σ 2 ),
x2 ∼ N (µ2 , σ 2 ) と仮定して,平均の差 (δ = µ1 − µ2 ) に関する仮説 H0 : δ = 0 を検定
したい.
(i) δ の信頼係数 95%の信頼区間を求めよ.
(ii) 仮説 H0 が真のとき,d = x̄1 − x̄2 の期待値と分散を求めよ.
.. 6.322 ,x̄1 = 65.0, x̄2 = 70.0 のとき,仮説 H0 を有意水
(iii) n1 = n2 = 20, σ 2 = 40 =
準 5% で検定せよ.対立仮説を明記すること.
問題 (7) ある大都市圏で無作為に抽出した n = 2500 人の成人に調査を実施したところ,1205 人
(48.2%) がある政策に賛成であった.
「この地域全体の政策支持率は 50%以上」と言う政
策担当者の主張は正当か.適切な仮説を立て,有意水準 5%で検定せよ.
3
コンピュータによる演習
(1) 二項分布,一様分布,t 分布から抽出される標本について,中心極限定理が成立する様子を観
察する(CLT.R による).
(2) 母集団の平均 µ に関する区間推定・仮説検定の練習(正規分布).
(3) 母集団の平均 µ に関する推定・検定(非正規分布と CLT の利用).
(4) 母集団の比率 θ に関する区間推定,仮説検定の練習(二項分布の正規近似).binom-ex2.R
(5) 二項分布の正規近似では「連続修正」が効果的であることを確認する.
4