例:ウェブデザインの A/B テスト 旧デザイン • 旧デザインでクリックする確率:pold データ:X1, . . . , X100 (クリックしたら Xi = 1,しなければ Xi = 0) 新デザイン • 新デザインでクリックする確率:pnew データ:Y1, . . . , Y106 (クリックしたら Yi = 1,しなければ Yi = 0) データは全て独立と仮定する. 仮想データ: クリック 旧 新 した 20 27 しない 80 79 計 100 106 仮説 クリック比 0.2 0.255 H0 : pold − pnew ≥ 0 (旧ページのほうが良い or 同じ) H1 : pold − pnew < 0 (新ページのほうが良い) 検証したいこと: 新デザインのほうが,クリックする比率が 有意に 高いか? note: 「コンバージョン率」などと言うらしい. 1/6 旧ページ: pold の推定量 X̄n = 新ページ: pnew 2/6 中心極限定理で X̄n, Ȳm の分布を近似する.n, m → ∞ のとき n 1! Xj , (n = 100) n j=1 √ m 1 ! の推定量 Ȳm = Yi, (m = 106) m i=1 (X̄n − pold) n" ∼ N (0, 1), pold(1 − pold) √ m" (Ȳm − pnew ) pnew (1 − pnew ) ∼ N (0, 1). したがって近似的に(有限の n, m で) • pold − pnew を X̄n − Ȳm で推定. X̄n ∼ N (pold, pold(1 − pold)/n), • X̄n − Ȳm ≤ c =⇒ H0 : pold − pnew ≥ 0 を棄却. 新ページが有意に良い (クリック数が多い) と判断. ただし σ 2 = =⇒ 棄却域を W = {X̄n − Ȳm ≤ c} とおいて,有意水準が α となる ように c を定める. X̄n − Ȳm ∼ N (pold − pnew , σ 2) pold(1 − pold) pnew (1 − pnew ) + . n m • σ 2 は未知.σ 2 ≈ σ #2 := −→ 計算を簡単にするため,X̄n, Ȳm の分布を正規分布で近似. • 近似的に 3/6 Ȳm ∼ N (pnew , pnew (1 − pnew )/m), X̄n(1 − X̄n) Ȳm(1 − Ȳm) + n m (X̄n − Ȳm) − (pold − pnew ) ∼ N (0, 1) σ # 4/6 H0 : pold − pnew ≥ 0 の下で 有意水準 α の棄却域は,近似的に 以下で与えられる. Pr{ データ ∈ W } = Pr{X̄n − Ȳm ≤ c} $ % (X̄n − Ȳm) − (pold − pnew ) c − (pold − pnew ) = Pr ≤ σ # σ # $ % (X̄n − Ȳm) − (pold − pnew ) c ≤ Pr ≤ σ # σ # c/# σ = −zα とすれば,H0 のもとで 近似的に Pr{ データ ∈ W } ≤ α となる. したがって,c = −zασ # とすればよい. W = & X̄n − Ȳm ≤ −zα ' X̄n(1 − X̄n) Ȳm(1 − Ȳm) + n m ( 有意水準を α = 0.05 としてデータが棄却域に入るか計算: • X̄n = 20 100 = 0.2, Ȳm = 27 106 . . = 0.255 ⇒ X̄n − Ȳm = −0.055 . . . • σ # = 0.058, z0.05 = 1.645 ⇒ −zασ # = −0.096 • 結論:観測データは棄却域に入らない. X̄n < Ȳm だが (有意水準 5% で) 新デザインが良いとは言えない. 注意:ネットで AB テストを検索すると,仮説を明記しないなど,誤解を招く説明が散見される. 検定では「仮説は何か? 何を検定しているのか?」を明確にすることが重要. 5/6 6/6
© Copyright 2024 ExpyDoc