例:ウェブデザインの A/B テスト - Home Page of Math CM Nagoya Univ.

例:ウェブデザインの A/B テスト
旧デザイン
• 旧デザインでクリックする確率:pold
データ:X1, . . . , X100 (クリックしたら Xi = 1,しなければ Xi = 0)
新デザイン
• 新デザインでクリックする確率:pnew
データ:Y1, . . . , Y106 (クリックしたら Yi = 1,しなければ Yi = 0)
データは全て独立と仮定する.
仮想データ:
クリック
旧
新
した
20
27
しない
80
79
計
100
106
仮説
クリック比
0.2
0.255
H0 : pold − pnew ≥ 0 (旧ページのほうが良い or 同じ)
H1 : pold − pnew < 0 (新ページのほうが良い)
検証したいこと:
新デザインのほうが,クリックする比率が 有意に 高いか?
note: 「コンバージョン率」などと言うらしい.
1/6
旧ページ: pold の推定量 X̄n =
新ページ: pnew
2/6
中心極限定理で X̄n, Ȳm の分布を近似する.n, m → ∞ のとき
n
1!
Xj , (n = 100)
n j=1
√
m
1 !
の推定量 Ȳm =
Yi, (m = 106)
m i=1
(X̄n − pold)
n"
∼ N (0, 1),
pold(1 − pold)
√
m"
(Ȳm − pnew )
pnew (1 − pnew )
∼ N (0, 1).
したがって近似的に(有限の n, m で)
• pold − pnew を X̄n − Ȳm で推定.
X̄n ∼ N (pold, pold(1 − pold)/n),
• X̄n − Ȳm ≤ c =⇒ H0 : pold − pnew ≥ 0 を棄却.
新ページが有意に良い (クリック数が多い) と判断.
ただし σ 2 =
=⇒
棄却域を W = {X̄n − Ȳm ≤ c} とおいて,有意水準が α となる
ように c を定める.
X̄n − Ȳm ∼ N (pold − pnew , σ 2)
pold(1 − pold) pnew (1 − pnew )
+
.
n
m
• σ 2 は未知.σ 2 ≈ σ
#2 :=
−→ 計算を簡単にするため,X̄n, Ȳm の分布を正規分布で近似.
• 近似的に
3/6
Ȳm ∼ N (pnew , pnew (1 − pnew )/m),
X̄n(1 − X̄n) Ȳm(1 − Ȳm)
+
n
m
(X̄n − Ȳm) − (pold − pnew )
∼ N (0, 1)
σ
#
4/6
H0 : pold − pnew ≥ 0 の下で
有意水準 α の棄却域は,近似的に 以下で与えられる.
Pr{ データ ∈ W } = Pr{X̄n − Ȳm ≤ c}
$
%
(X̄n − Ȳm) − (pold − pnew ) c − (pold − pnew )
= Pr
≤
σ
#
σ
#
$
%
(X̄n − Ȳm) − (pold − pnew )
c
≤ Pr
≤
σ
#
σ
#
c/#
σ = −zα とすれば,H0 のもとで
近似的に Pr{ データ ∈ W } ≤ α
となる.
したがって,c
= −zασ
# とすればよい.
W =
&
X̄n − Ȳm ≤ −zα
'
X̄n(1 − X̄n) Ȳm(1 − Ȳm)
+
n
m
(
有意水準を α = 0.05 としてデータが棄却域に入るか計算:
• X̄n =
20
100
= 0.2, Ȳm =
27
106
.
.
= 0.255 ⇒ X̄n − Ȳm = −0.055
.
.
.
• σ
# = 0.058, z0.05 = 1.645 ⇒ −zασ
# = −0.096
• 結論:観測データは棄却域に入らない.
X̄n < Ȳm だが (有意水準 5% で) 新デザインが良いとは言えない.
注意:ネットで AB テストを検索すると,仮説を明記しないなど,誤解を招く説明が散見される.
検定では「仮説は何か? 何を検定しているのか?」を明確にすることが重要.
5/6
6/6