遺伝子×遺伝子間相互作用検定の自由度について 東北大学 東北メディカル・メガバンク機構 植木 優夫 1. はじめに 遺伝子間相互作用は,失われた遺伝率の問題を説明しうるひとつの有力な候補とされている.一塩基多型 (SNP)を用いて,遺伝子×遺伝子間相互作用をゲノムワイドに探索するための統計手法はまだ確立されてお らず,多くの問題が山積している.本報告では,回帰モデルに基づく統計的仮説検定により遺伝子×遺伝子 間相互作用を探索する手法に着目し,検定統計量の自由度をデータ依存に設定する方法について考察する. 2. データに依存した自由度の設定 形質値(疾患などの二値変数あるいは臨床値などの量的変数)と遺伝子の間の関連性を発見する問題を考 える.特に昨今のゲノムワイド関連解析(GWAS) においては,形質値を応答変数,遺伝子を説明変数とした 回帰モデルによるモデル化が有効である. SNP を用いた研究では,数十万個程の SNP が実際の解析に利用 され,ひとつひとつの SNP と形質値との関連を統計的仮説検定により調べる,単一 SNP 関連解析が標準的 な手法となっている. しかしながら,多くのヒト形質において,単一 SNP 関連解析により発見された SNP は小さな効果しか示さず,これらを総合しても形質の大部分が説明できないことが報告されている. この現 象は失われた遺伝率の問題と呼ばれ,多くの研究者を悩ませている [1].失われた遺伝率を説明しうる有力な 候補のひとつに遺伝子間相互作用が挙げられている.これは,複数の SNP の組み合わせ効果の検証を通じ て調べられるが [2],本稿では,特に,回帰モデルに基づく交互作用項の検定による手法を取り上げる.応答 変数 Y ,説明変数 X による回帰モデルを考える.X は SNP に対応し,集団から無作為抽出された確率変 数と見なせる.X のある実現値 x において,形質との関連を調べる統計量を Tx (Y ) と表す.統計量 Tx (Y ) は,例えば,ロジスティック回帰であれば尤度比統計量などに相当し,その場合,帰無仮説のもとで Tx (Y ) はカイ 2 乗分布に従う.X が従う分布を g と書けば,第一種の過誤は,以下のように書ける. ∫ P {TX (Y ) > q} = P {Tx (Y ) > q | X = x}g(x)dx. ここで q は,有意水準 α に対して,P {Tx (Y ) > q | X = x} = α を満たす閾値である.通常,q は x に 無関係に設定されるが,x の値に依存した閾値を用いることも可能である. すなわち,帰無仮説のもと ∫ で P {Tx (Y ) > qx | X = x} = α となるような qx を用いれば, P {Tx (Y ) > qx | X = x}g(x)dx = ∫ α g(x)dx = α を満たし,第一種の過誤を制御できる.SNP ひとつひとつは,マイナーアリルの数に応じ て {0,1,2} の値をとる離散確率変数であり,例えば 2 つの SNP の組み合わせは,3 × 3 分割表により表現 できる.一般的な GWAS で用いられる標本数では,いくつかのセルで個体が観察されない(空セル)ケー スがある(例えば,両 SNP でマイナーホモ接合をもつ個体など).Tx (Y ) の帰無分布の自由度は,一般に, 説明変数行列 x の階数に依存するが,空セルによりランク落ちが生じることがある.飽和モデルを用いたと きは,自由度 4 の交互作用項の検定となるが [2],例えば,ひとつのセルが必ず空であるような X = x で条 件付けると,ひとつの交互作用項が常に推定不能であり,そのような x については,自由度 4 でなく自由度 3 となる.このように,推定可能な交互作用項の数 0,1,. . . ,4 に応じて X の値域を分割し,x が属する分 割に対応した自由度を用いて閾値 qx を設定すればよい [3]. 参考文献 [1] Manolio TA et al. (2009) Finding the missing heritability of complex diseases. Nature 461:747–53. [2] Cordell HJ (2009) Detecting gene-gene interactions that underlie human diseases. Nat Rev Genet 10:392–404. [3] Ueki M (2014) On the choice of degrees of freedom for testing gene-gene interactions. Stat Med , Accepted.
© Copyright 2024 ExpyDoc