1 2013.9.19 特定保健用食品のヒト試験における 統計解析方法の考え方と注意点 成蹊大学理工学部情報科学科 岩崎 学 [email protected] 2 Agenda • Tea Tasting Lady • 観測データと確率構造の例 • 統計的データ解析の流れと統計的な考え方 • 代表的な統計手法 • コメント集 3 Tea Tasting Lady - 1 • The most famous lady in the (statistical) world. • 英国では,ミルクティーを作る際,ミルクを先に入れてから紅 茶を注ぐものとされているようである. • 昔,英国であるご婦人が「私は,ミルクを先に入れたかあるい は紅茶を先に入れたかは飲めばわかる」と発言し,その真偽 を確かめるため実験を行なう事になった. • どういう実験を行ない,どういう結果が出れば このご婦人はどちらを先に入れたかの「判別力」 ありと判断できるであろうか. • わが社で開発した商品はトクホとして 有効性があるだろうか(審査を通るだろうか). 4 Tea Tasting Lady - 2 • 紅茶カップを n 個(偶数)用意し,半分にはミルクを先に入れ, 残りの半分には紅茶を先に入れ,それらをランダムな順序で そのご夫人に飲んでもらい,どのカップがミルクを先に入れた ものであるかを判定してもらう. • その結果,正解となったカップ数を m とする. • ご婦人が正しく言い当てる確率を p とする. • 確率は各試行で一定,かつ結果は独立であると仮定. • ご婦人の判別力が全くないという仮説(帰無仮説)H0 および 判別力があるという仮説(対立仮説)H1 は H0 : p = 0.5 vs. H1 : p > 0.5 となる. 5 Tea Tasting Lady - 3 • 2つの可能性 (1) n 個中,「ミルク先」がいくつあるかを知らせない. (2) n 個中,「ミルク先」が n/2 個あることを知らせる. • 正答数を X とするとき,m 個以上正解する確率 • (1) では試行回数 n,確率 0.5 の二項分布 B(n, 0.5) p1 Pr(X m) n n Ck (0.5) (1 0.5) k k m nk n n C ( 0 . 5 ) n k k m • (2) では,超幾何分布 H(m, n/2, n) p 2 Pr(X m) n ( n / 2 Ck / 2 )( n / 2 C(n / 2)(k / 2) ) /(n Cn / 2 ) k m 6 Tea Tasting Lady - 4 • 確率 p1もしくは p2(P値)が a = 0.05(有意水準)以下のときに ご婦人の判別力ありと判断(帰無仮説 H0 : p = 0.5 を棄却) • 帰無仮説が正しい(判断力がない)とすれば,このような結果が起こる はずがない • 表:いくつかの n に対し,判別力ありと判断できる m の最小 • • • • 数,およびその時の確率(有意確率) n = 4 では,すべて正解 (m = 4) であっても判別力ありとは判 断されない n = 6 では,全部正解であれば判別力ありと判断 n 二項 p1 超幾何 p2 n = 10 のときは,(1) では m = 9 4 4 0.0625 4 0.1667 m = 10 で判別力ありと判断 6 6 0.0156 6 0.0500 8 7 0.0352 8 0.0143 実際上,n は大きくできない 10 9 0.0107 10 0.0040 12 10 0.0193 10 0.0400 7 観測データと確率構造 • N 人を被験食品群,対照食品群にそれぞれ m 人,n 人ずつ ランダムに割り付け,有効かどうかを調べる • 仮説: P1 = P2 vs. P1 P2 度数 被験食品 対照食品 計 有効 a c s 無効 b d t 計 m n N 度数 被験食品 対照食品 計 有効 14 10 24 無効 6 10 16 計 20 20 40 確率 被験食品 対照食品 有効 P1 P2 無効 1 - P1 1 - P2 計 1 1 有効率 被験食品 対照食品 有効 0.7 0.5 無効 0.3 0.5 計 1 1 8 この場合はどう判断 • 実験 A • 実験 B 度数 被験食品 対照食品 計 有効 14 10 24 無効 6 10 16 計 20 20 40 有効率 被験食品 対照食品 有効 0.7 0.5 無効 0.3 0.5 計 1 1 度数 被験食品 対照食品 計 有効 70 50 120 無効 30 50 80 計 100 100 200 有効率 被験食品 対照食品 有効 0.7 0.5 無効 0.3 0.5 計 1 1 9 カイ2乗検定 • 検定統計量: N (ad bc) Y mnst 2 • D = (ad – bc) は 2 2 行列の行列式(逆行列が存在するための条件 a : b = c : d a/m = c/n) • 判断基準:Y 3.84 のとき差ありと判断 • 3.84 (1.96)2 は,自由度1のカイ2乗分布の上側5%点. 度数 被験食品 対照食品 計 有効 a c s 無効 b d t 計 m n N 10 結果の判断 • Y = 1.67 < 3.84 • 被験食品と対照食品とでは有効率に差があるとは言えない 度数 被験食品 対照食品 計 有効 14 10 24 無効 6 10 16 計 20 20 40 • Y = 8.33 > 3.84 • 被験食品と対照食品との間には有効率に差があると言える 度数 被験食品 対照食品 計 有効 70 50 120 無効 30 50 80 計 100 100 200 11 統計的データ解析の流れ • 研究目的の設定 • データ収集法の立案:実験,観察研究,調査 • データの収集(モニタリング) • データの電子化 • データのチェック(クリーニング),マージ • データの集計とグラフ化(予備的検討):記述統計 • 統計的推測ないしは予測:推測統計 • 分析結果のプレゼンテーション:文書化,口頭発表 • 意思決定(終了もしくは最初に戻る) 12 研究目的の設定 • 「統計」では,研究目的の設定は,具体的に • 「試験食品の有効性を立証するため」では駄目 • 用量設定試験:関与物質の配合量の決定 • 有効性検証試験:プラセボ食と被験食の比較 • 安全性試験:通常,3倍量の下での安全性 • 何をどう測るか.・・・「統計」では解答不可能な問い • しかし「統計」は,技術的に,測定項目の(統計的,数学的)性質を評価 できる. • 食品の特長をうまく表現する. 13 データ収集法の立案 • 比較対照試験:Randomized Controlled Trial • 並行群間試験 parallel comparative trial • クロスオーバー試験 cross-over trial • 評価項目の設定 • 連続型:コレステロール,血糖値,血圧 • カウント型:排便回数, • 2値型:(有効,無効) • 摂取前値,摂取後値(1回あるいは複数回) • 例数設計:有意水準(α),検出力(1-β),効果の大きさ • プロトコルに詳細に記載! 14 統計的検定の3要素 • 仮説を立てる • 帰無仮説 (H0):差はない,偶然的変動に過ぎない • 対立仮説 (H1):差がある.偶然的な変動とは言えない • 片側仮説 H1 : θ > 0 • 両側仮説 H1 : θ ≠ 0 • 検定統計量の選択(パラメトリック,ノンパラメトリック) • 検定に用いる値(関数) T = T(X1, . . . , Xn) を選択し, データから t* = T(x1, . . . , xn) を計算 • 標本平均,標本比率,t 統計量, • 統計的有意性の評価(P値の計算と判断) • 確率 P = Pr(T ≧ t*) を評価し(P値),P が小さいとき帰無仮説を棄却 • 有意水準 α:P の小ささの基準.α = 0.05 が普通. • P > α のとき帰無仮説を棄却しない.帰無仮説の正しさの証明ではない 15 信頼区間 • パラメータ θ の信頼係数 95% の信頼区間 (θL, θU) • データから定義式に基づいて区間 (θL, θU) を作成したとき, 100回中95回はその区間がパラメータの真の値を間に含む • 信頼係数が高く,区間幅が短いのが理想 • 信頼係数を高くすると区間幅は広がり,区間幅を狭めると信頼係数が 低くなる • 対応策:計測を精度良く行う.サンプルサイズを増やす 95% 信頼区間がパラメータ値 θ0 を含まない ⇔ H0 : θ = θ0 vs. H1 : θ ≠ θ0 の検定が有意水準 5% で有意 16 連続型データ(2群の比較) • パラメトリック:2標本 t 検定 2つの正規母集団間で,分散は等しいが未知の仮定での, 平均値間の検定 • 正規性の仮定は必ずしも厳密でなくてよい. • ノンパラメトリック:ウィルコクソン検定(マン=ホィットニー検定) 2つの母集団間で,位置パラメータ(中央値など)の違いを 検定.分布型の仮定は必要ない(ノンパラメトリック検定) • 共分散分析 (analysis of covariance = ANCOVA):処置前値 や背景因子を共変量に取った回帰モデルに基づく検定 17 連続データ(多群の比較) • パラメトリック:分散分析 (analysis of variance = ANOVA) 3つ以上の正規母集団で,分散が等しいという条件の下, 平均値間の差異を検定 • 正規性の仮定は厳密には必要ない • 有意差が見られても,どこに差があるのかまでは分からない • ノンパラメトリック:クラスカルのH検定 順位に基づく検定で,分布型の仮定は不要 • 多重比較 (multiple comparison) 想定する対立仮説ごとに種々の検定法 シェッフェ法,ダネット法,テューキー法,... 18 カウントデータ • 有効率の比較:2つの二項分布の比較(二項確率の計算に基 づく検定,正規近似による検定) • 2×2分割表における検定:フィッシャー検定,独立性のピアソ ンカイ2乗検定(イェーツの補正を入れる・入れない) • ポアソン回帰(負の二項回帰):稀な事象の生起確率に回帰モ デルを想定(一般化線形モデルの枠組み) • ロジスティック回帰:logit (p) = log {p/(1-p)} に回帰モデルを 想定(一般化線形モデル) 参考:岩崎 学 (2010) カウントデータの統計解析.朝倉書店 19 コメント集-1(試験計画関連) • 試験期間中の生活変動が大きかった者を除外した,とありま すが,その詳細を,試験計画書における被験者の扱いの規程 と共に示してください.ここでの解析はいわゆる PP (Per Protocol) 解析ですので,ITT (Intent To Treat) 解析の結果も 示し,両解析間の相違を考察すると共に,試験計画書でどの 解析を主要な解析とするように規定していたのかも含めて説 明してください. • 資料1には臨床試験の計画ならびに実施に関する詳細が記 載されていません.資料に記載されている事柄を確認するた めにも,試験計画および試験結果のデータを提出されたい. 20 コメント集-2(統計解析の詳細) • 実験結果は図示されていますが,せっかくデータ解析をしてい るのですから,図で示すだけでなく統計数字で示される部分 は示していただきたい.回答文には,「直線の傾きも変化しま した」とか「直線の傾きの変化が確認されました」といった記述 がありますが,これらに対する数値的な裏付け,たとえば検定 結果とか,求めたパラメータ値の標準誤差の表示などがあっ てしかるべきであると思います. • 論文には,統計的な検定結果が p < 0.05 あるいは n. s. のよ うな形で記載されています.しかし,具体的にどういう検定を 行なったのかの記載がありません.検定法についての詳細を 示してください. 21 コメント集-3(統計解析の詳細) • 統計的有意差が見られているパラメータも散見されますが, 効果はそれほど大きくないという印象です.多重性の調整を 行なうと結果はどうなるのでしょう. • 試験はクロスオーバー法によって行なわれていて,△△△に 関しては試験飲料群において統計的有意性が認められてい る点はそれなりに評価できますが,クロスオーバーによる試験 結果の詳細が不明です.確認のため,キャリーオーバーや時 期効果の有無など,統計解析の詳細が知りたいと考えます. 22 コメント集-4(効果の評価) • 結論から言えば,試験結果は必ずしもクリアカットなものとは 言い難い.12週の試験において4週と8週でのみ統計的有意 差もしくは有意傾向があったというのでは,何のための12週 の試験であったのかと言いたくなります.また,有意差の見ら れた測定項目における効果の大きさが臨床上意味のある効 果であるかどうかについては判断の根拠を持ち合わせないの で,専門の先生方のご判断に委ねます. • 実施された実験では,当該食品を摂取した結果,摂取前と比 較して○○○が統計的に有意に下降したとのことでした.しか しこの実験ではプラセボ群が設定されていないため,プラセボ 効果がどの程度であったのかが判然とせず,したがって当該 食品の効果の有無および程度が評価できません. 23 コメント集-5(同等性) • 統計の立場からは「統計的有意差がなければ同等」という[消 極的な]ロジックは通常受け入れられなくて,「非劣性試験」と しては,合理的な非劣性限界を設定した上で,それを下回ら ないことを示すという[積極的な]試験結果をもって同等(非劣 性)と判断します. • 相応の被験者数を用意した上で,点推定値として既存値を上 回っていれば問題はないと思いますが,点推定値で既存値を 下回った場合には上述のような何らかの理由付けが必要とな ります(でないと徐々に値が下がる危険性があります). • 「同等」と判断した根拠となる論文を見せていただければ,そ の結果の妥当性が評価できます. 24 コメント集-6(再試験) • 本来であれば,文献調査や動物実験,そしてヒトを対象とした 試験による用量設定を経て,プラセボ対照の比較試験を実施 するのが筋であることは疑いありません.本申請は,用量設 定があいまいなまま比較試験を実施していたわけで,今回追 加的に用量設定試験を行っています. • 摂取試験結果を見るに,△△の推移に関して試験食が対照 食に比べその上昇を有意に抑制しているという客観的な証拠 は得られていないと考えます.むしろAUCにおいては対照食 のほうがわずかであるが小さいように見受けられます.部分 集団解析では若干の統計的有意性及び有意傾向を観察して いますが,証拠不足の感は否めません.対照食を適切に選択 し,統計的有意性を示すことが期待されるだけの被験者数及 び試験手順をもって再度試験をする必要があると考えます.
© Copyright 2024 ExpyDoc