ISMオープンフォーラム 第2シリーズ 統計科学とゲノム情報 ゲノム多様性解析のための 新しい統計的方法 江口 真透 1 研究プロジェクトの紹介 財団法人癌研究会ゲノムセンター 1. SNPs 3. マイクロアレイ 2. プロテオーム 「p >> n 」難問題 統計的方法 2 ゲノム多様性とバイオテクノロジー SNPs Genome 多様性 転写 マイクロアレイ 遺伝子発現 mRNA 翻訳 プロテオーム 蛋白発現 Protein 3 SNPs 一塩基多型 SNPs (Single Nucleotide Polymorphisms) DNA列に1塩基だけに起こる置換 ヒトゲノム(30億ベース)の 0.1%(約300万ベース) 日本人データ : http://snp.ims.u-tokyo.ac.jp/index_ja.html 4 SNPの実験 PCR product Diluted 1:30 Invader template Apply 0.8μl / well to 48 cards and Dry up 384-well card 5 SNPタイピング A/G (G allele) G/G A/A no target blank (A allele) SNP: (A/G)タイプ, サンプル数: 333 6 提案された判定法 G/A G/G A/A 7 8 SNPのハプロタイプ SNPの列 ジノタイプ A A C T A G G A T T G G Clark’ algorithm, EM algorithm ハプロタイプ (AACT AG) (GA T T GG) 9 SNPのハプロタイプブロック 組み換え C T C C A G A G T C C A CCCTGACGTAA GTTCCGTATAA CCCTGA CGTAA GTTCCG TATAA CCCTGATATAA GTTCCGCGTAA 10 ハプロタイプブロック 11 ハプロタイプデータ T C G T C A CCCTGACGTAA .479 CCCTGA CGTAA GTTCCGTATAA .278 GTTCCG TATAA GCCCGGCGCGG .155 GCCCGG CGCGG CCCTGATATAA .013 CCCTGA TATAA GCCCGGCGTAA .013 GCCCGG CGTAA GTTCCGCGTAA .010 GTTCCG CGTAA m 11, 2m 2048, puniform .000488 12 ハプロタイプブロックの特徴 CCCTGA CGTAA GTTCCG TATAA GCCCGG CGCGG CCCTGA TATAA GCCCGG CGTAA GTTCCG CGTAA ★ 先祖ハプロタイプが大 部分を占める ★ 先祖ハプロタイプが少 ない(普通は4つ前後) ★ 組換えは確率現象であ ると考えられている ★ 組換え頻度が高い場所 は限られている ★ マイナー部分は,様々 な理由が考えられる. 13 組み換えモデル 可能なハプロタイプブロック B (1) (6) B( 2 ) B ( 3) B( 4 ) B ( 5)B B r1 0 r2 0 B [1 ] r3 1 r4 0 r5 0 r6 0 B[ 2 ] (7) B(9) B (8) r7 0 r8 1 B (10 ) r9 0 B [ 3] 現実ハプロタイプブロック h (h(1) | h( 2) | h( 3) | | h( 9) | h(10) ) h (h[1] | h[ 2] | h[3] ) 14 テイラーメイド医療へ SNPの分割表による解析 ハプロタイプ推定: 3種類 頻度(H1:59%、H2:24%、H3:17%) SNP-A p=0.015 ロジスティックモデルによる解析 SNP-B p=0.054 ハプロタイプの有意性 p=0.0018 0.9 0.8 日本人のディプロタイプ 頻度の推定値 0.7 予 0.6 測 0.5 確 0.4 率 0.3 0.2 0.1 0 3 2 タイプ ロ プ タイプ 1 ハ ロ プ タイプ ハ ロ プ ハ ハプロタイプ3 ハプロタイプ2 H3 H2 H3 0.35 0.28 H2 0.06 H1 H1 0.20 0.08 0.03 ハプロタイプ1 15 ゲノム多様性とバイオテクノロジー SNPs Genome 多様性 転写 マイクロアレイ 遺伝子発現 mRNA 翻訳 プロテオーム 蛋白発現 Protein 16 プロテオーム実験 Mirror Protein Chip Lens + + + Laser beam source + + + + + + Ion detector Flight tube (High vacuum) High voltage MW (Time of Flight) 17 50 スプライン法 * * 40 37 peaks are detected. * 20 ** * * 10 * ** 0 Intensity 30 * 1000 * * * * ** * * ** ** * 1100 * * * 1200 *** * * * 1300 1400 * * * * 1500 M.Z 18 プロテオームデータ 40 20 0 60 40 20 Lung cancer 0 60 40 20 0 60 40 20 100 75 50 25 40 30 20 10 75 Normal tissue 50 25 100 75 50 25 100 75 50 25 1500 1750 2000 2250 2500 19 集団解析 {( yi , (ti , xi )), i 1,...,nk } k 1,...,K (k ) (k ) Loss ( f ) (k) nk {xi (k ) i 1 f (ti (k ) ) }2 reg( f ) K 1 Loss( k ) ( f k ) *reg* ( f1 ,...., f K ) k 1 nk Loss( f1 ,...., f K ) 関数データ解析 力学方程式=レギュラリゼイション 20 ゲノム多様性とバイオテクノロジー SNPs Genome 多様性 転写 マイクロアレイ 遺伝子発現 mRNA 翻訳 プロテオーム 蛋白発現 Protein 21 マイクロアレイデータ cDNA microarry 22 マイクロアレイから判別 特徴ベクトル: 次元=遺伝子数 p 成分=遺伝子の発現の光量 形式 x ( x1,x p ) クラスラベル: 疾病の種類,薬剤感受性のレベル 形式 y { 1, 1} 識別機械 x y f (x ) 23 ・ Golub et al.,白血病と遺伝子発現 24 一遺伝子判別 第 j 番目の遺伝子の発現量 x j1, ... , x j n j xj エラー数 5 6 5 一遺伝子判別機械 6 5 6 5 4 5 65 1 if x j j f j (x ) 1 if x j j j arg min { I ( yi sgn ( x j i a ) } a i 25 重み付きエラー データの重みの更新 重み4 j j xj エラー数 9 8 11 10 15 14 18 17 16 18 12 j arg min { I ( yi sgn ( x j i a )w(i ) } a i 26 アダブースト 1 1.重みの初期値 w1 (i ) (i 1 n ), F0 ( x ) 0 n n t ( f ) I( yi f ( xi )) wt (i ) , 2. t 1,, T i 1 (a ) t ( f ( t ) ) min t ( f ) f 1 t ( f( t ) ) 1 2 log t ( f( t ) ) (b) t (c) wt 1(i) wt (i) exp( t f(t ) ( x) yi ) T 3. FT ( x ) sign(t f ( t ) ( x )) t 1 27 アダブーストの学習ルール w1 (1), , w1 (n) f (1) ( x ) 1 w2 (1),, w2 (n) f( 2) ( x) 2 例題 1 2 T t 1 t f(t ) ( x) T wT (1),, wT (n) f (T ) ( x ) 各ステージで 最良機械 f (t ) 28 グループブーストの学習ルール f (1,1) ( x ), , f (1,G ) ( x ) w1 (1), , w1 (n) w2 (1),, w2 (n) 例題 (1,1) , , (1,G ) 1 f (1) ( x) f ( 2,1) ( x ), , f ( 2,G ) ( x ) ( 2,1) , , ( 2,G ) 2 f( 2) ( x) T f t 1 各ステージで 総合機械 (x ) T f (T ,1) ( x ), , f (T ,G ) ( x ) wT (1),, wT (n) (t ) (T ,1) , , (T ,G ) f (T ) ( x ) f( t ) 1 G ((t ,1) f(t ,1) (t ,G) f(t ,G) ) 29 実データを用いた実験 n p y = +1 y = -1 ALLAML 72 7129 37 35 Colon 62 2000 40 22 Estrogen 49 7129 25 24 解析結果 アダブーストは同等の性能を持つ遺伝子発現 グループの中で代表する一部しか捕らえない. グループブーストはグループ全員をうまく捕らえた. 30 ブリッジスタディ K 研究所の遺伝子発現データ {D1, , DK }, Dk { ( xi( k ) , yi( k ) ) : i 1, , nk } CAMDA (Critical Assessment of Microarray Data Analysis ) DDBJ(日本DNAデータバンク ) 国立遺伝研,舘野研究室 31 データセットの併合の問題点 1.特徴空間のノイズの不均一性 cDNA, Affymetrix 2.クラスラベルのノイズの不均一性 共変量の相違,疾病,感受性の診断 3.汎化能力の不均一性 マイクロアレイ実験の精度 32 ブリッジブースト n t ( f ) I( yi ( k ) f ( xi ( k ) )) wt ( k ) (i ) , (k ) i 1 K t(k ) ( f ) k 1 nk t ( f ) (a) ft (k ) arg min t ( f ) (k ) f (k ) (b) t (c) (k ) t 1 w (k ) 1 t ( ft ) 1 (k ) 2 log t ( ft ) (i ) wt (i ) exp( t (k ) (k ) (k ) (k ) (k ) ft ( xi ) yi ) 33 ブリッジブーストの学習アルゴリズム (1) (1) wt (1), , wt (n1 ) D1 D2 ( 2) (1) ( x) t (1) ( 2) ( x) t ( 2) ft ( 2) wt (1), , wt (n2 ) ft D f (t ) ( x) DK wt (K) (1), , wt (K) (nK ) ft (K ) ( x) t(K ) (1) (1) (K ) (K ) 各ステージで ブリッジ f ( t ) K1 (t f t t f t ) 34 シムレイション 3データセット D1 , D2 , D3 p 100, n1 50, n2 50, n3 50 D1 , D2 テストエラー 0(理論値) D3 テストエラー 0.5(理論値) トレーニングエラー テストエラー 全データのアダブースト 35 ブリッジブーストの良さ トレーニングエラー テストエラー 個々のアダブースト トレーニングエラー テストエラー ブリッジ・アダブースト 36 ゲノム多様性とバイオテクノロジー プロテオーム 蛋白分子量 Protein 遺伝 翻訳 Genome マイクロアレイ 遺伝子発現 SNPs 変異 mRNA 転写 37 ゲノムデータのまとめ SNPs Proteome Microarray データ次元 p 1,000~ 100,000 関数 5,000~20,000 データ数 n 100 ~1000 5 ~20 20 ~100 データ 38 「p >> n」 難問題 次元 p は大なり = バイオマーカーの拡大 説明変数,特徴量,探索変数, 共変量,予測変数 SNPs, プロテオーム,マイクロアレイ サンプル数 n は大きくできない = 研究施設の管理下 インフォームドコンセント,臨床試験 プロトコール,不確実性のコントロール バイオインフォマティックスの基本課題 39 次元 p は本当に大きいのか? p バイオマーカー空間 B IR dim(B ) p SNPs プロテオーム 遺伝子発現 ハプロタイプブロック 関数データ解析(ダイナミックス) クラスターリング ネットワークモデル グループブースト 40 次元 n は本当に小さいのか? ゲノムサイエンスの急速な拡大 あるバイオマーカー空間 B を固定. x B Dk { ( xi , yi ) : i 1, , nk } (k 1, ..., K ) n1 nK n 併合可能性? メタアナリシス 41 統計学の役割りは? 遺伝学 分子生物学 バイオインフォマティクス 薬学 生化学 臨床医学 42 参考文献 Genotyping of single nucleotide polymorphism using model-based clustering. H. Fujisawa, S. Eguchi, M. Ushijima, S. Miyata, Y. Miki, T. Muto and M. Matsuura. Bioinformatics 20, 718726. (2004). Information geometry of U-Boost and Bregman divergence. N. Murata, T. Takenouchi, T. Kanamori and S. Eguchi Neural Computation 16, 1437-1481 (2004). Robustifying AdaBoost by adding the naive error rate. T. Takenouchi and S. Eguchi. Neural Computation 16, 767-787 (2004). Identifying haplotype block structure by using ancestor-derived model and minimumdescription-length principle. In preparation. Hironori Fujisawa, Minoru Isomura, Shinto Eguchi, Masaru Ushijima, Satoshi Miyata, and Masaaki Matsuura GroupAdaBoost for selecting important genes. In preparation. T. Takenouchi, M. Ushijima and S. Eguchi 43
© Copyright 2024 ExpyDoc