論文要旨・審査の要旨

学位論文の内容の要旨
論文提出者氏名
論文審査担当者
論
文
題
目
永家 聖
主査 石川 俊平
副査 木村 彰方、村松 正明
A method to associate all possible combinations of genetic and
environmental factors using GxE landscape plot
(論文内容の要旨)
<要旨>
ゲノムワイド関連解析(GWAS)や連鎖解析により、多くの疾患に関連した一塩基多型(SNPs)
が同定されてきた。
しかしながらオッズ比が 1.5〜3.0 でかつマイナーアレル頻度(MAFs)
が 0.005
と低い SNPs はまだよく知られていない。これは複雑な遺伝子環境相互作用にもとづいているか
らだと考え、我々は遺伝因子と環境因子の組み合わせを関連付ける方法である GxE ランドスケ
ーププロットを作成した。GENS2(Gene-Environment iNteraction Simulator 2)ソフトウェ
アで 2 つの遺伝因子と 1 つの環境因子を用いてシミュレーションし、さらにこの試行を 20 回繰
り返しデータを生成した。得られたデータセットには、170 人分の疾患状態、性別、20 個の環境
因子、抽出した 100 個の遺伝因子が含まれている。また p 値は、コクラン・マンテル・ヘンツェ
ルカイ二乗検定により求めた。階層的クラスタリングを考慮した遺伝因子と環境因子の組み合わ
せと、それに関連する負の対数p値を利用して、3次元の GxE ランドスケーププロットを作成し
た。この GxE ランドスケーププロットは、疾患発症に関連のある p 値に照らし合わせながら遺
伝子環境相互作用を見ることができ、また遺伝因子と環境因子間の類似性を予測するモデルとし
て有用であると考える。
<緒言>
ゲノムワイド関連分析(Genome-wide association study ; GWAS)は、疾患感受性遺伝子に関
する患者対照分析で、疾患群において健常群に比べ有意に頻度の高い SNPs を検出する手法であ
る。近年、世界の各地で大規模な調査・解析が行われ、165 以上の疾患の発症リスクに関係する
1,200 以上の遺伝子座の多型性が見出されている。また、家系調査による連鎖解析によって、オ
ッズ比が非常に高いが頻度が非常に低い疾患である希少メンデル型遺伝疾患の SNPs が発見され
ている。しかしながらオッズ比が 1.5〜3.0 でかつマイナーアレル頻度(MAFs)が 0.005 と低い
SNPs はまだよく知られていない。これは複雑な遺伝子環境相互作用にもとづいているからだと
考えられる。
遺伝子環境相互作用が単なる相加的あるいは相乗的現象ではなく、組合せ特異性があることを
- 1 -
明確に示したのが、
Marchand らのハワイでの大腸がんにおける生活習慣(喫煙と well-done meat
食習慣)と代謝酵素(CYP1A2,NAT2 の各 rapid type)の組み合わせに特異的リスク増大効果が
あった研究である。焦げた肉や NAT2、CYP1A2 単独では、大腸がんと有意な関連がなかったが、
それらが特異的な組み合わせ、すなわち、NAT2、CYP1A2 が両方とも rapid type で well-done
meat を食し喫煙者である対象は、個々の因子の相対リスクの積ではなく、それらを遥かに上回
る 8.8 倍の相対リスクになった。
またGWASに対抗して、環境因子の疾患リスクへの寄与をGWAS式の結果表示(Manhattanプ
ロット)に記載するものとして、ButteらがEWAS(Environment-wide association study)を提
案している。さらに、Butteらは、GWASで得られたリスクSNPsとEWASで得られた環境リスク
因子を組み合わせて、2型糖尿病に関する有意なGxE項目として、SNP(rs13266634)とtrans-βcaroteneの組み合わせを見出している。このことによってSNP単独のエフェクトサイズを40%上
昇させた。しかしながら、Butteらの方法は、限られた環境因子しか取り扱うことができず、網
羅的な方法ではない。
そこで著者らは階層的クラスタリングを考慮した遺伝因子と環境因子の組み合わせと、それに
関連する負の対数p値を利用して、3次元のGxEランドスケーププロットを作成した。このGxE
ランドスケーププロットは、疾患発症に関連のあるp値に照らし合わせながら遺伝子環境相互作
用を見ることができ、また遺伝因子と環境因子間の類似性を予測するモデルとして有用であると
考える。
<方法>
データセット作成
GENS2 は連鎖不平衡に基づいた実際のデータを用いて、遺伝子環境相互作用をシミュレーシ
ョンすることができるプログラムである。シミュレーションに用いたデータは、HapMap3 デー
タベースからダウンロードし、GENS2 プログラムで使用できるように simuGWAS で変換を行っ
た。今回は全てのデータセットではなく、JPT+CHB chr7 のデータのみを利用した。このデータ
セットを、初期データとしてシミュレーションに使用した。またサンプルサイズは HapMap3
JPT+CHB chr7 初期値の 170 人とした。このシミュレーションでは、以下の変数が使用されてい
る。疾患素因因子: rs1881690, rs1979600, rs4960568, rs6972501, rs7793905, rs936997、リス
クアレル、優性パラメータ、相対リスク、環境因子のオッズ比、平均値、標準偏差。このシミュ
レーションを 20 回繰り返し、20 個分の環境因子のデータセットを作成した。この 20 個の環境
因子は2つのグループに分かれることを想定し、また各グループは、特異的な遺伝子環境相互作
用を持つように設定を行った。また得られたデータセットにおいて、 疾患状態が 75%点よりも
大きければ 1、低ければ 0 と値を変換した。 解析の過程において、3 種類のジェノタイプを持た
ない 23,277 SNPs を解析の対象から除外した。最終的に疾患に関連した 6SNPs とランダムに抽
出した 94SNPs の併せて 100SNPs を使用した。
- 2 -
p 値計算
遺伝因子と環境因子の組み合わせと疾患発症の間に特異的に影響を与える因子を同定するため
に、コクラン・マンテル・ヘンツェルカイ二乗検定を行った。得られた p 値は、false discovery rate
によって多重比較を考慮した。この検定には、統計処理言語 R 3.1.2 と Bioconductor パッケージ
を利用した。
GxE ランドスケーププロット作成
予測モデルとして、階層的クラスタリングを伴った遺伝因子と環境因子の組み合わせに対する
負の対数p値を利用して3次元 GxE ランドスケーププロットを作成した。100 個の遺伝因子と
20 個の環境因子に対して、ピアソンの相関係数と完全連結法を用いて階層的クラスタリングを行
った。
<考察>
階層的クラスタリングを伴った遺伝因子と環境因子の組み合わせに対する負の対数p値を利用
した 3 次元の GxE ランドスケーププロットを作成した。ランドスケープから山の頂上が 2 個あ
ることが視覚的に見ることができる。また 20 個の環境因子は2つのメジャーなグループに分か
れた。それぞれのグループは、特異的な遺伝子環境相互作用を持つように設定したことが証明さ
れた。6 個の SNP の内、4 個は正しくクラスタリングされ、グループに属していた(66.6%)。一
方環境因子は、20 個中 20 個が正しいグループに分かれていた(100%)。それゆえ我々のモデルは、
高精度で集団のクラスターを予測することができると考えられる。これは、疾患に関連した遺伝
因子と環境因子の類似性をモデルが予測していたことを示している。なお本研究で得られた p 値
は、遺伝子環境相互作用における交絡因子が除かれている前提で行っている。今回提案した GxE
ランドスケーププロットにより、集団の特異的な特徴を可視化し、また新規の遺伝子環境相互作
用を同定することができると考える。
Butte らの EWAS を用いたアプローチは、遺伝子環境相互作用をマンハッタンプロットの二次
元で描写する手法で、一度に表示できる数が限られている。そこで本研究では遺伝因子と環境因
子の組み合わせと、それに関連する p 値を網羅的に三次元でランドスケープという形で表現して
いる。この GxE ランドスケーププロットにより、遺伝子環境相互作用の組み合わせとその関連す
る p 値を山の地形として見てとることができる。
75%点で区切り値を2値に変換したデータ解析のプロセスには改善すべき余地があると考え
る。より正確にデータを表現し、情報量の損失を防ぐためには、離散量ではなく連続量を直接使
える方が望ましい。
またランドスケープの傾きは p 値の変化率と同等である。ランドスケープにおける傾きの変化
を用いて疾患発症を推測することが可能である。例えば、ランドスケープの頂上が急で高く、他
が低い山であれば、そのような環境にいる人をそこにとどまらせないように、その環境をやめる
- 3 -
ことを勧めることができると考える。
<結論>
ゲノムワイド関連解析や連鎖解析により、さまざまな疾患に関連した一塩基多型が同定された。
オッズ比が 1.5〜3.0 でかつマイナーアレル頻度(MAFs)が 0.005 と低い SNPs はまだよく知ら
れていない。これは複雑な遺伝子環境相互作用にもとづいているからだと考えられる。それゆえ、
我々は遺伝因子と環境因子の組み合わせを関連付ける方法である GxE ランドスケーププロット
を提案した。この GxE ランドスケーププロットは、疾患発症に関連のある p 値に照らし合わせ
ながら、遺伝因子と環境因子の間の類似性を予測するモデルとして有用であると考える。
- 4 -
論文審査の要旨および担当者
報 告 番 号
乙 第
論文審査担当者
2345
号
永家 聖
主
査 石川 俊平
副
査 木村 彰方、村松 正明
(論文審査の要旨)
1. 論文内容
本論文は遺伝因子と環境因子との相互作用の網羅的な関連解析研究についての論文である。
2. 論文審査
1)研究目的の先駆性・独創性
申請者は遺伝因子と環境因子との相互作用の網羅的解析手法として、各因子をクラスタリン
グしそれらの関連 p 値の 3 次元プロットを作成することで可視化して捉える手法を開発した。
その着眼点は評価に値する。
2)社会的意義
本研究で得られた主な結果は遺伝因子と環境因子との相互作用の網羅的解析手法の有用性を
シミュレーションデータを使って見いだしたことである。本研究は多因子疾患の網羅的解析方
法に対して重要な知見を加え、今後の疾患コホート研究等に資するものと考えられる。
3)研究方法・倫理観
申請者は 170 名の SNP データセットを用いて、20 個の環境因子と関連する 6 個の SNP を
含む 100 個の SNP からなるシミュレーションデータを作成した。この生成したシミュレーシ
ョンデータを用いて、2 値化して設定した疾患状態と対応する遺伝因子・環境因子の組み合わ
せとの関連の p 値(負の対数)を利用して、3次元のランドスケーププロットを作成したもの
である。この際、遺伝因子と環境因子はクラスタリングして表示させている。この 3 次元ラン
ドスケーププロットから、集団の特異的な特徴を可視化して、また新規の遺伝子環境相互作用
を同定できる可能性を見いだした。申請者の研究方法に対する知識と技術力が十分に高いこと
が示されたと考えられる。
4)考察・今後の発展性
申請者は本研究結果について、疾患コホート等の実データを用いた遺伝因子と環境因子との
相互作用の研究に発展できる可能性について考察している。
3. 審査結果
以上を踏まえ、本論文は博士(医学)の学位を申請するのに十分な価値があるものと認められ
た。
( 1 )