Detection of differentially expressed genes

バイオスタティスティックスの数理的基礎
チュートリアル「遺伝子発現データ解析概論」
(被)影響遺伝子の同定
濱野 鉄太郎
北里大学大学院 薬学研究科 臨床統計部門
Copyright (C) 2003 Tetsutaro Hamano (Kitasato University). All rights Reserved.
本セクションの目的
遺伝子発現データから(被)影響遺伝子を
同定する方法を紹介
(被)影響遺伝子の同定において重要な点
を考察
(被)影響遺伝子
影響を与える遺伝子

例:癌遺伝子,癌抑制遺伝子
(Hanahan et al., 2000)
影響を受ける遺伝子

例:熱によるショックに影響される遺伝子
(Schena et al., 1996)
医学における応用
テイラーメイド医療
患者のゲノム情報から個人差を
考慮した医療を提供する
ゲノム創薬
ゲノム情報をもとにして
新薬の候補物質を開発する
遺伝子発現解析のキーワード
解析の簡便さ(Lightness)
計算の速さ (Quickness)
結果の正確さ(Exactitude)
結果の見易さ(Visibility)
多重性の考慮(Multiplicity)
結果の再現性(Reproducibility)
参考:Calvino(1993)
遺伝子発現データ
状態1
状態n
状態2
x1n
遺伝子2
x2 1
x2 2
・・・
x2 n
・・・
xm n
遺伝子m
xm1
xm 2
遺伝子 i の発現プロファイル
・・・
・・・
・・・
x1 2
・・・
x11
・・・
遺伝子1
xi  xi1 , xi 2 ,..., xin 
データの分布(アレイ毎)
箱ひげ図(アレイ毎)
Lightness & Quickness
遺伝子発現データは膨大


数~数百サンプル
数百~数万遺伝子
解析の簡便さと計算機の速さが必要

ひとつの遺伝子を解析する時間が一秒でも3
600個の遺伝子では一時間かかる
Exactitude
遺伝子発現解析では,遺伝子の発現量を
直接測定しているわけではない


蛍光色素や放射性物質によりラベリング
シグナルの強度(比)を測定
実験によって生じる偏りや誤差変動に注意
しなければならない

Garbage in, garbage out
アレイ上で生じるエラー
Bubbles
Comets
Damaged substrate
Dilated spots
Doughnuts
Edge drying
Edge fading
High background: fluorescence
High background: black holes
Irregular spot morphology
Low signal intensity
Particle contamination
Pin blockage
Scanner problems
Day-to-day variation in
printing
High irregular background
Bright patches/streaks
Nonspecific signal
Chip defects
Scratching of feature surface
(Bowtell and Sambrook eds., 2003)
Visibility
クラスター分析


遺伝子発現解析で頻繁に行われている
類似性の指標
 相関係数,ユークリッド距離
Eisenマップ

Eisen et al. (1998)
生のアレイ画像
主なクラスター分析手法
階層的クラスタリング

Eisen et al. (1998)
k平均法

Tavazoie et al. (1999)
自己組織化マップ

Tamayo et al. (1999)
階層型クラスタリング
n(m)次元空間上の遺伝子(状態)発現プロファイル
階層型クラスタリング
最も近接した点を結合する
階層型クラスタリング
クラスター間の距離
1. 最短距離法
2. 最長距離法
3. 群平均法
2
1
3
階層型クラスタリング
樹形図を作成する
遺伝子1
遺伝子2
・
・
・
遺伝子m
非類似性
k平均法
n(m)次元空間上の遺伝子(状態)発現プロファイル
k平均法
参照点をランダムに配置
(参照点の数=クラスター数は事前に設定)
k平均法
最も近接した参照点に各点を属させる
k平均法
参照点をクラスターの重心に更新する
k平均法
収束条件を満たすまで以上のプロセスを繰り返す
自己組織化マップ
格子点をランダムに配置する
(格子点数=クラスター数は事前に設定)
自己組織化マップ
ある点をランダムに選択する
自己組織化マップ
格子点を点の方向に近づける
自己組織化マップ
以上のプロセスを繰り返す
初期の論文では
発現比が閾値を超えた遺伝子群を抽出
例:

Schena et al. (1996)
 発現比が2倍以上または0.5以下のものを抽出

DeRisi et al. (1997)
 発現比が3倍以上のものを抽出
問題点
データの確率変動を考慮していない


たまたま発現比が2以上だった?
ばらつきの大きい方が選択され易い?
発現比の確率分布を考慮して遺伝子を
抽出しなければならない
Multiplicity
(被)影響遺伝子を仮説検定で同定したい

例:癌細胞群と正常細胞群とを比較
検定の多重性の問題が生じる


有意水準5%で一万個の遺伝子を検定
各遺伝子が互いに独立で,全ての帰無仮説
が正しいときに,500個の遺伝子が有意
記号法
棄却しない 棄却した
真の帰無仮説
U
V
m0
真の対立仮説
T
S
m-m0
m-R
R
m
(Benjamini & Hochberg,1995)
False Discovery Rate
棄却された仮説のうちで第一種の過誤が
起こる確率
(Benjamini & Hochberg,1995)
Significance Analysis of
Microarrays (SAM)
1. 遺伝子毎に検定統計量を計算
2. 検定統計量の順序統計量を導出
3. 完全帰無仮説のもとでサンプルを並べ替え,
順序統計量の期待値を推定
4. 統計量と期待値の差を比較して,ある閾値以
上(以下)の遺伝子を抽出
5. 帰無分布からFDRを推定
(Tusher et al., 2001)
モデル選択的アプローチ
線形スプライン関数の当てはめにより,特
徴的な発現プロファイルの遺伝子群を抽
出


AICを用いて定数関数モデルと比較
線形スプラインモデルが選択される遺伝子群
を抽出
(DeHoon, Imoto and Minano, 2002)
Reproducibility
遺伝子発現解析は,探索的な段階から検
証的な段階へと移行しつつある


臨床試験
テイラーメイド医療
より高い水準の再現性が必要である



品質管理
実験計画法
データの前処理(正規化など)