食品分野における統計的方法の必要性

1
2013.9.19
特定保健用食品のヒト試験における
統計解析方法の考え方と注意点
成蹊大学理工学部情報科学科
岩崎 学
[email protected]
2
Agenda
• Tea Tasting Lady
• 観測データと確率構造の例
• 統計的データ解析の流れと統計的な考え方
• 代表的な統計手法
• コメント集
3
Tea Tasting Lady - 1
• The most famous lady in the (statistical) world.
• 英国では,ミルクティーを作る際,ミルクを先に入れてから紅
茶を注ぐものとされているようである.
• 昔,英国であるご婦人が「私は,ミルクを先に入れたかあるい
は紅茶を先に入れたかは飲めばわかる」と発言し,その真偽
を確かめるため実験を行なう事になった.
• どういう実験を行ない,どういう結果が出れば
このご婦人はどちらを先に入れたかの「判別力」
ありと判断できるであろうか.
• わが社で開発した商品はトクホとして
有効性があるだろうか(審査を通るだろうか).
4
Tea Tasting Lady - 2
• 紅茶カップを n 個(偶数)用意し,半分にはミルクを先に入れ,
残りの半分には紅茶を先に入れ,それらをランダムな順序で
そのご夫人に飲んでもらい,どのカップがミルクを先に入れた
ものであるかを判定してもらう.
• その結果,正解となったカップ数を m とする.
• ご婦人が正しく言い当てる確率を p とする.
• 確率は各試行で一定,かつ結果は独立であると仮定.
• ご婦人の判別力が全くないという仮説(帰無仮説)H0 および
判別力があるという仮説(対立仮説)H1 は
H0 : p = 0.5 vs. H1 : p > 0.5
となる.
5
Tea Tasting Lady - 3
• 2つの可能性
(1) n 個中,「ミルク先」がいくつあるかを知らせない.
(2) n 個中,「ミルク先」が n/2 個あることを知らせる.
• 正答数を X とするとき,m 個以上正解する確率
• (1) では試行回数 n,確率 0.5 の二項分布 B(n, 0.5)
p1  Pr(X  m) 
n
 n Ck (0.5) (1  0.5)
k
k m
nk

n
n
C
(
0
.
5
)
n k
k m
• (2) では,超幾何分布 H(m, n/2, n)
p 2  Pr(X  m) 
n
 ( n / 2 Ck / 2 )( n / 2 C(n / 2)(k / 2) ) /(n Cn / 2 )
k m
6
Tea Tasting Lady - 4
• 確率 p1もしくは p2(P値)が
a = 0.05(有意水準)以下のときに
ご婦人の判別力ありと判断(帰無仮説 H0 : p = 0.5 を棄却)
• 帰無仮説が正しい(判断力がない)とすれば,このような結果が起こる
はずがない
• 表:いくつかの n に対し,判別力ありと判断できる m の最小
•
•
•
•
数,およびその時の確率(有意確率)
n = 4 では,すべて正解 (m = 4) であっても判別力ありとは判
断されない
n = 6 では,全部正解であれば判別力ありと判断
n 二項
p1
超幾何
p2
n = 10 のときは,(1) では m = 9
4
4
0.0625
4
0.1667
m = 10 で判別力ありと判断
6
6
0.0156
6
0.0500
8
7
0.0352
8
0.0143
実際上,n は大きくできない
10
9
0.0107
10
0.0040
12
10
0.0193
10
0.0400
7
観測データと確率構造
• N 人を被験食品群,対照食品群にそれぞれ m 人,n 人ずつ
ランダムに割り付け,有効かどうかを調べる
• 仮説: P1 = P2 vs. P1  P2
度数
被験食品
対照食品
計
有効
a
c
s
無効
b
d
t
計
m
n
N
度数
被験食品
対照食品
計
有効
14
10
24
無効
6
10
16
計
20
20
40
確率
被験食品
対照食品
有効
P1
P2
無効
1 - P1
1 - P2
計
1
1
有効率
被験食品
対照食品
有効
0.7
0.5
無効
0.3
0.5
計
1
1
8
この場合はどう判断
• 実験 A
• 実験 B
度数
被験食品
対照食品
計
有効
14
10
24
無効
6
10
16
計
20
20
40
有効率
被験食品
対照食品
有効
0.7
0.5
無効
0.3
0.5
計
1
1
度数
被験食品
対照食品
計
有効
70
50
120
無効
30
50
80
計
100
100
200
有効率
被験食品
対照食品
有効
0.7
0.5
無効
0.3
0.5
計
1
1
9
カイ2乗検定
• 検定統計量:
N (ad  bc)
Y
mnst
2
• D = (ad – bc) は 2  2 行列の行列式(逆行列が存在するための条件
a : b = c : d  a/m = c/n)
• 判断基準:Y  3.84 のとき差ありと判断
• 3.84  (1.96)2 は,自由度1のカイ2乗分布の上側5%点.
度数
被験食品
対照食品
計
有効
a
c
s
無効
b
d
t
計
m
n
N
10
結果の判断
• Y = 1.67 < 3.84
• 被験食品と対照食品とでは有効率に差があるとは言えない
度数
被験食品
対照食品
計
有効
14
10
24
無効
6
10
16
計
20
20
40
• Y = 8.33 > 3.84
• 被験食品と対照食品との間には有効率に差があると言える
度数
被験食品
対照食品
計
有効
70
50
120
無効
30
50
80
計
100
100
200
11
統計的データ解析の流れ
• 研究目的の設定
• データ収集法の立案:実験,観察研究,調査
• データの収集(モニタリング)
• データの電子化
• データのチェック(クリーニング),マージ
• データの集計とグラフ化(予備的検討):記述統計
• 統計的推測ないしは予測:推測統計
• 分析結果のプレゼンテーション:文書化,口頭発表
• 意思決定(終了もしくは最初に戻る)
12
研究目的の設定
• 「統計」では,研究目的の設定は,具体的に
• 「試験食品の有効性を立証するため」では駄目
• 用量設定試験:関与物質の配合量の決定
• 有効性検証試験:プラセボ食と被験食の比較
• 安全性試験:通常,3倍量の下での安全性
• 何をどう測るか.・・・「統計」では解答不可能な問い
• しかし「統計」は,技術的に,測定項目の(統計的,数学的)性質を評価
できる.
• 食品の特長をうまく表現する.
13
データ収集法の立案
• 比較対照試験:Randomized Controlled Trial
• 並行群間試験 parallel comparative trial
• クロスオーバー試験 cross-over trial
• 評価項目の設定
• 連続型:コレステロール,血糖値,血圧
• カウント型:排便回数,
• 2値型:(有効,無効)
• 摂取前値,摂取後値(1回あるいは複数回)
• 例数設計:有意水準(α),検出力(1-β),効果の大きさ
• プロトコルに詳細に記載!
14
統計的検定の3要素
• 仮説を立てる
• 帰無仮説 (H0):差はない,偶然的変動に過ぎない
• 対立仮説 (H1):差がある.偶然的な変動とは言えない
• 片側仮説 H1 : θ > 0
• 両側仮説 H1 : θ ≠ 0
• 検定統計量の選択(パラメトリック,ノンパラメトリック)
• 検定に用いる値(関数) T = T(X1, . . . , Xn) を選択し, データから t* =
T(x1, . . . , xn) を計算
• 標本平均,標本比率,t 統計量,
• 統計的有意性の評価(P値の計算と判断)
• 確率 P = Pr(T ≧ t*) を評価し(P値),P が小さいとき帰無仮説を棄却
• 有意水準 α:P の小ささの基準.α = 0.05 が普通.
• P > α のとき帰無仮説を棄却しない.帰無仮説の正しさの証明ではない
15
信頼区間
• パラメータ θ の信頼係数 95% の信頼区間 (θL, θU)
• データから定義式に基づいて区間 (θL, θU) を作成したとき,
100回中95回はその区間がパラメータの真の値を間に含む
• 信頼係数が高く,区間幅が短いのが理想
• 信頼係数を高くすると区間幅は広がり,区間幅を狭めると信頼係数が
低くなる
• 対応策:計測を精度良く行う.サンプルサイズを増やす
95% 信頼区間がパラメータ値 θ0 を含まない
⇔
H0 : θ = θ0 vs. H1 : θ ≠ θ0 の検定が有意水準 5% で有意
16
連続型データ(2群の比較)
• パラメトリック:2標本 t 検定
2つの正規母集団間で,分散は等しいが未知の仮定での,
平均値間の検定
• 正規性の仮定は必ずしも厳密でなくてよい.
• ノンパラメトリック:ウィルコクソン検定(マン=ホィットニー検定)
2つの母集団間で,位置パラメータ(中央値など)の違いを
検定.分布型の仮定は必要ない(ノンパラメトリック検定)
• 共分散分析 (analysis of covariance = ANCOVA):処置前値
や背景因子を共変量に取った回帰モデルに基づく検定
17
連続データ(多群の比較)
• パラメトリック:分散分析 (analysis of variance = ANOVA)
3つ以上の正規母集団で,分散が等しいという条件の下,
平均値間の差異を検定
• 正規性の仮定は厳密には必要ない
• 有意差が見られても,どこに差があるのかまでは分からない
• ノンパラメトリック:クラスカルのH検定
順位に基づく検定で,分布型の仮定は不要
• 多重比較 (multiple comparison)
想定する対立仮説ごとに種々の検定法
シェッフェ法,ダネット法,テューキー法,...
18
カウントデータ
• 有効率の比較:2つの二項分布の比較(二項確率の計算に基
づく検定,正規近似による検定)
• 2×2分割表における検定:フィッシャー検定,独立性のピアソ
ンカイ2乗検定(イェーツの補正を入れる・入れない)
• ポアソン回帰(負の二項回帰):稀な事象の生起確率に回帰モ
デルを想定(一般化線形モデルの枠組み)
• ロジスティック回帰:logit (p) = log {p/(1-p)} に回帰モデルを
想定(一般化線形モデル)
参考:岩崎 学 (2010) カウントデータの統計解析.朝倉書店
19
コメント集-1(試験計画関連)
• 試験期間中の生活変動が大きかった者を除外した,とありま
すが,その詳細を,試験計画書における被験者の扱いの規程
と共に示してください.ここでの解析はいわゆる PP (Per
Protocol) 解析ですので,ITT (Intent To Treat) 解析の結果も
示し,両解析間の相違を考察すると共に,試験計画書でどの
解析を主要な解析とするように規定していたのかも含めて説
明してください.
• 資料1には臨床試験の計画ならびに実施に関する詳細が記
載されていません.資料に記載されている事柄を確認するた
めにも,試験計画および試験結果のデータを提出されたい.
20
コメント集-2(統計解析の詳細)
• 実験結果は図示されていますが,せっかくデータ解析をしてい
るのですから,図で示すだけでなく統計数字で示される部分
は示していただきたい.回答文には,「直線の傾きも変化しま
した」とか「直線の傾きの変化が確認されました」といった記述
がありますが,これらに対する数値的な裏付け,たとえば検定
結果とか,求めたパラメータ値の標準誤差の表示などがあっ
てしかるべきであると思います.
• 論文には,統計的な検定結果が p < 0.05 あるいは n. s. のよ
うな形で記載されています.しかし,具体的にどういう検定を
行なったのかの記載がありません.検定法についての詳細を
示してください.
21
コメント集-3(統計解析の詳細)
• 統計的有意差が見られているパラメータも散見されますが,
効果はそれほど大きくないという印象です.多重性の調整を
行なうと結果はどうなるのでしょう.
• 試験はクロスオーバー法によって行なわれていて,△△△に
関しては試験飲料群において統計的有意性が認められてい
る点はそれなりに評価できますが,クロスオーバーによる試験
結果の詳細が不明です.確認のため,キャリーオーバーや時
期効果の有無など,統計解析の詳細が知りたいと考えます.
22
コメント集-4(効果の評価)
• 結論から言えば,試験結果は必ずしもクリアカットなものとは
言い難い.12週の試験において4週と8週でのみ統計的有意
差もしくは有意傾向があったというのでは,何のための12週
の試験であったのかと言いたくなります.また,有意差の見ら
れた測定項目における効果の大きさが臨床上意味のある効
果であるかどうかについては判断の根拠を持ち合わせないの
で,専門の先生方のご判断に委ねます.
• 実施された実験では,当該食品を摂取した結果,摂取前と比
較して○○○が統計的に有意に下降したとのことでした.しか
しこの実験ではプラセボ群が設定されていないため,プラセボ
効果がどの程度であったのかが判然とせず,したがって当該
食品の効果の有無および程度が評価できません.
23
コメント集-5(同等性)
• 統計の立場からは「統計的有意差がなければ同等」という[消
極的な]ロジックは通常受け入れられなくて,「非劣性試験」と
しては,合理的な非劣性限界を設定した上で,それを下回ら
ないことを示すという[積極的な]試験結果をもって同等(非劣
性)と判断します.
• 相応の被験者数を用意した上で,点推定値として既存値を上
回っていれば問題はないと思いますが,点推定値で既存値を
下回った場合には上述のような何らかの理由付けが必要とな
ります(でないと徐々に値が下がる危険性があります).
• 「同等」と判断した根拠となる論文を見せていただければ,そ
の結果の妥当性が評価できます.
24
コメント集-6(再試験)
• 本来であれば,文献調査や動物実験,そしてヒトを対象とした
試験による用量設定を経て,プラセボ対照の比較試験を実施
するのが筋であることは疑いありません.本申請は,用量設
定があいまいなまま比較試験を実施していたわけで,今回追
加的に用量設定試験を行っています.
• 摂取試験結果を見るに,△△の推移に関して試験食が対照
食に比べその上昇を有意に抑制しているという客観的な証拠
は得られていないと考えます.むしろAUCにおいては対照食
のほうがわずかであるが小さいように見受けられます.部分
集団解析では若干の統計的有意性及び有意傾向を観察して
いますが,証拠不足の感は否めません.対照食を適切に選択
し,統計的有意性を示すことが期待されるだけの被験者数及
び試験手順をもって再度試験をする必要があると考えます.