U-divergence and its application to statistical

ISMオープンフォーラム
第2シリーズ
統計科学とゲノム情報
ゲノム多様性解析のための
新しい統計的方法
江口 真透
1
研究プロジェクトの紹介
財団法人癌研究会ゲノムセンター
1. SNPs
3. マイクロアレイ
2. プロテオーム
「p >> n 」難問題
統計的方法
2
ゲノム多様性とバイオテクノロジー
SNPs
Genome
多様性
転写
マイクロアレイ
遺伝子発現
mRNA
翻訳
プロテオーム
蛋白発現
Protein
3
SNPs
一塩基多型 SNPs (Single Nucleotide Polymorphisms)
DNA列に1塩基だけに起こる置換
ヒトゲノム(30億ベース)の 0.1%(約300万ベース)
日本人データ : http://snp.ims.u-tokyo.ac.jp/index_ja.html
4
SNPの実験
PCR product
Diluted 1:30
Invader template
Apply 0.8μl / well
to 48 cards
and
Dry up
384-well card
5
SNPタイピング
A/G
(G allele)
G/G
A/A
no target blank
(A allele)
SNP: (A/G)タイプ,
サンプル数: 333
6
提案された判定法
G/A
G/G
A/A
7
8
SNPのハプロタイプ
SNPの列
ジノタイプ
   
 
 A   A   C  T   A   G 
         
 G   A  T  T  G G
Clark’ algorithm, EM algorithm
ハプロタイプ
(AACT AG)
(GA T T GG)

9
SNPのハプロタイプブロック
組み換え
C
T
C
C
A
G
A G
T C
C
A
CCCTGACGTAA
GTTCCGTATAA
CCCTGA CGTAA
GTTCCG TATAA
CCCTGATATAA
GTTCCGCGTAA
10
ハプロタイプブロック
11
ハプロタイプデータ
T
C
G
T
C
A
CCCTGACGTAA
.479
CCCTGA CGTAA
GTTCCGTATAA
.278
GTTCCG TATAA
GCCCGGCGCGG
.155
GCCCGG CGCGG
CCCTGATATAA
.013
CCCTGA TATAA
GCCCGGCGTAA
.013
GCCCGG CGTAA
GTTCCGCGTAA
.010
GTTCCG CGTAA
m 11, 2m  2048, puniform  .000488
12
ハプロタイプブロックの特徴
CCCTGA CGTAA
GTTCCG TATAA
GCCCGG CGCGG
CCCTGA TATAA
GCCCGG CGTAA
GTTCCG CGTAA
★ 先祖ハプロタイプが大
部分を占める
★ 先祖ハプロタイプが少
ない(普通は4つ前後)
★ 組換えは確率現象であ
ると考えられている
★ 組換え頻度が高い場所
は限られている
★ マイナー部分は,様々
な理由が考えられる.
13
組み換えモデル
可能なハプロタイプブロック
B
(1)
(6)
B( 2 ) B ( 3) B( 4 ) B ( 5)B B
r1  0 r2  0
B [1 ]
r3  1
r4  0 r5  0 r6  0
B[ 2 ]
(7)
B(9)
B (8)
r7  0
r8  1
B (10 )
r9  0
B [ 3]
現実ハプロタイプブロック
h  (h(1) | h( 2) | h( 3) |  | h( 9) | h(10) )
h  (h[1] | h[ 2] | h[3] )
14
テイラーメイド医療へ
SNPの分割表による解析 ハプロタイプ推定: 3種類 頻度(H1:59%、H2:24%、H3:17%)
SNP-A p=0.015
ロジスティックモデルによる解析
SNP-B p=0.054
ハプロタイプの有意性 p=0.0018
0.9
0.8
日本人のディプロタイプ
頻度の推定値
0.7
予 0.6
測 0.5
確 0.4
率
0.3
0.2
0.1
0
3
2
タイプ
ロ
プ
タイプ
1
ハ
ロ
プ
タイプ
ハ
ロ
プ
ハ
ハプロタイプ3
ハプロタイプ2
H3 H2
H3 0.35 0.28
H2
0.06
H1
H1
0.20
0.08
0.03
ハプロタイプ1
15
ゲノム多様性とバイオテクノロジー
SNPs
Genome
多様性
転写
マイクロアレイ
遺伝子発現
mRNA
翻訳
プロテオーム
蛋白発現
Protein
16
プロテオーム実験
Mirror
Protein Chip
Lens
+
+
+
Laser beam source
+
+
+
+
+
+
Ion detector
Flight tube (High vacuum)
High voltage
MW (Time of Flight)
17
50
スプライン法
*
*
40
37 peaks are detected.
*
20
**
*
*
10
*
**
0
Intensity
30
*
1000
*
* * * **
*
*
** **
*
1100
*
*
*
1200
*** * * *
1300
1400
* *
*
*
1500
M.Z
18
プロテオームデータ
40
20
0
60
40
20
Lung
cancer
0
60
40
20
0
60
40
20
100
75
50
25
40
30
20
10
75
Normal
tissue
50
25
100
75
50
25
100
75
50
25
1500
1750
2000
2250
2500
19
集団解析
{( yi , (ti , xi )), i  1,...,nk } k 1,...,K
(k )
(k )
Loss ( f ) 
(k)
nk
{xi
(k )
i 1
 f (ti
(k )
) }2   reg( f )
K
1
Loss( k ) ( f k )  *reg* ( f1 ,...., f K )
k 1 nk
Loss( f1 ,...., f K )  
関数データ解析
力学方程式=レギュラリゼイション
20
ゲノム多様性とバイオテクノロジー
SNPs
Genome
多様性
転写
マイクロアレイ
遺伝子発現
mRNA
翻訳
プロテオーム
蛋白発現
Protein
21
マイクロアレイデータ
cDNA microarry
22
マイクロアレイから判別
特徴ベクトル:
次元=遺伝子数 p
成分=遺伝子の発現の光量
形式
x  ( x1,x p )
クラスラベル: 疾病の種類,薬剤感受性のレベル
形式
y  {  1,  1}
識別機械 x  y  f (x )
23
・
Golub et al.,白血病と遺伝子発現
24
一遺伝子判別
第 j 番目の遺伝子の発現量
x j1, ... , x j n
j
xj
エラー数
5
6
5
一遺伝子判別機械
6
5
6
5 4 5 65
 1 if x j   j
f j (x )  
  1 if x j   j
 j  arg min {  I ( yi   sgn ( x j i  a ) }
a
i
25
重み付きエラー
データの重みの更新
重み4
j
j
xj
エラー数
9
8 11
10
15
14
18 17 16
18 12
 j  arg min {  I ( yi   sgn ( x j i  a )w(i ) }
a
i
26
アダブースト
1
1.重みの初期値 w1 (i )  (i  1 n ), F0 ( x )  0
n
n
 t ( f )   I( yi  f ( xi )) wt (i ) ,
2. t  1,, T
i 1
(a )
 t ( f ( t ) )  min  t ( f )
f
1   t ( f( t ) )
1
2 log
 t ( f( t ) )
(b)
t 
(c)
wt 1(i)  wt (i) exp( t f(t ) ( x) yi )
T
3.
FT ( x )  sign(t f ( t ) ( x )) t 1
27
アダブーストの学習ルール
w1 (1), , w1 (n)
f (1) ( x )
1
w2 (1),, w2 (n)
f( 2) ( x)
2
例題
1
2
T

t 1
t
f(t ) ( x)
T
wT (1),, wT (n)
f (T ) ( x )
各ステージで 最良機械
f (t )
28
グループブーストの学習ルール
f (1,1) ( x ),  , f (1,G ) ( x )
w1 (1), , w1 (n)
w2 (1),, w2 (n)
例題
 (1,1) , ,  (1,G )
1
f (1) ( x)
f ( 2,1) ( x ), , f ( 2,G ) ( x )
( 2,1) , , ( 2,G )
2
f( 2) ( x)
T
f
t 1
各ステージで 総合機械
(x )
T
f (T ,1) ( x ), , f (T ,G ) ( x )
wT (1),, wT (n)
(t )
(T ,1) , , (T ,G )
f (T ) ( x )
f( t ) 
1
G
((t ,1) f(t ,1)  (t ,G) f(t ,G) )
29
実データを用いた実験
n
p
y = +1
y = -1
ALLAML
72
7129
37
35
Colon
62
2000
40
22
Estrogen
49
7129
25
24
解析結果
アダブーストは同等の性能を持つ遺伝子発現
グループの中で代表する一部しか捕らえない.
グループブーストはグループ全員をうまく捕らえた.
30
ブリッジスタディ
K 研究所の遺伝子発現データ
{D1, , DK }, Dk  { ( xi( k ) , yi( k ) ) : i  1, , nk }
CAMDA (Critical Assessment of Microarray Data Analysis )
DDBJ(日本DNAデータバンク )
国立遺伝研,舘野研究室
31
データセットの併合の問題点
1.特徴空間のノイズの不均一性
cDNA, Affymetrix
2.クラスラベルのノイズの不均一性
共変量の相違,疾病,感受性の診断
3.汎化能力の不均一性
マイクロアレイ実験の精度
32
ブリッジブースト
n
 t ( f )   I( yi ( k )  f ( xi ( k ) )) wt ( k ) (i ) ,
(k )
i 1
K
t(k ) ( f )
k 1
nk
t ( f )  
(a)
ft
(k )
 arg min  t ( f )
(k )
f
(k )
(b)
t
(c)
(k )
t 1
w
(k )

1   t ( ft )
1
(k )
2 log
 t ( ft )
(i )  wt (i ) exp(  t
(k )
(k )
(k )
(k )
(k )
ft ( xi ) yi )
33
ブリッジブーストの学習アルゴリズム
(1)
(1)
wt (1), , wt (n1 )
D1
D2
( 2)
(1)
( x)
 t (1)
( 2)
( x)
 t ( 2)
ft
( 2)
wt (1), , wt (n2 )
ft
D
f (t ) ( x)
DK
wt
(K)
(1), , wt
(K)
(nK )
ft
(K )
( x)
 t(K )
(1) (1)
(K ) (K )
各ステージで ブリッジ f ( t )  K1 (t f t     t f t )
34
シムレイション
3データセット
D1 , D2 , D3
p  100, n1  50, n2  50, n3  50
D1 , D2 テストエラー 0(理論値)
D3
テストエラー 0.5(理論値)
トレーニングエラー
テストエラー
全データのアダブースト 35
ブリッジブーストの良さ
トレーニングエラー
テストエラー
個々のアダブースト
トレーニングエラー
テストエラー
ブリッジ・アダブースト
36
ゲノム多様性とバイオテクノロジー
プロテオーム
蛋白分子量
Protein
遺伝
翻訳
Genome
マイクロアレイ
遺伝子発現
SNPs
変異
mRNA
転写
37
ゲノムデータのまとめ
SNPs
Proteome
Microarray
データ次元 p
1,000~
100,000
関数
5,000~20,000
データ数 n
100 ~1000
5 ~20
20 ~100
データ
38
「p >> n」 難問題
次元 p は大なり = バイオマーカーの拡大
説明変数,特徴量,探索変数,
共変量,予測変数
SNPs, プロテオーム,マイクロアレイ
サンプル数 n は大きくできない = 研究施設の管理下
インフォームドコンセント,臨床試験
プロトコール,不確実性のコントロール
バイオインフォマティックスの基本課題
39
次元 p は本当に大きいのか?
p

バイオマーカー空間 B IR
dim(B )  p
SNPs
プロテオーム
遺伝子発現
ハプロタイプブロック
関数データ解析(ダイナミックス)
クラスターリング
ネットワークモデル
グループブースト
40
次元 n は本当に小さいのか?
ゲノムサイエンスの急速な拡大
あるバイオマーカー空間 B を固定.
x B
Dk  { ( xi , yi ) : i  1, , nk } (k  1, ..., K )
n1    nK  n
併合可能性?
メタアナリシス
41
統計学の役割りは?
遺伝学
分子生物学
バイオインフォマティクス
薬学
生化学
臨床医学
42
参考文献
Genotyping of single nucleotide polymorphism using model-based clustering. H. Fujisawa, S.
Eguchi, M. Ushijima, S. Miyata, Y. Miki, T. Muto and M. Matsuura. Bioinformatics 20, 718726. (2004).
Information geometry of U-Boost and Bregman divergence. N. Murata, T. Takenouchi, T.
Kanamori and S. Eguchi Neural Computation 16, 1437-1481 (2004).
Robustifying AdaBoost by adding the naive error rate. T. Takenouchi and S. Eguchi. Neural
Computation 16, 767-787 (2004).
Identifying haplotype block structure by using ancestor-derived model and minimumdescription-length principle. In preparation. Hironori Fujisawa, Minoru Isomura, Shinto
Eguchi, Masaru Ushijima, Satoshi Miyata, and Masaaki Matsuura
GroupAdaBoost for selecting important genes. In preparation. T. Takenouchi, M. Ushijima and
S. Eguchi
43