第1回講義ノート

バイオインフォマティクス
(第1回)
慶應義塾大学生命情報学科
榊原康文
講義の予定
榊原:前中半

ゲノム配列のアセンブリと決定法

ペアワイズアライメントと動的計画法の仕組みと理論

マルチプルアライメント(プロファイル,モチーフなど)

データベース検索(BLASTなど)

クラスタリング(マイクロアレイ解析への応用)

遺伝子発現解析,ネットワーク解析,など

系統樹解析,比較ゲノム解析

アドバンスな研究課題,医科学・生命科学ビッグデータ解析,
など

(ゲスト講義者)
佐藤健吾:後半
医学・生命科学ビッグデータ時代の到来
ゲノム・臨床
データ
コホートデータ
お薬手帳
個人健康記録
データ
 電子カルテ
 健診データ
 服薬履歴データ
 体温,血圧など
日本でのヘルスケアビジネス:
DeNAライフサイエンス
YAHOOヘルスケア
iPhoneアプリ
これからの医療・ヘルスケア事業は
IT主導
体は60兆個の細胞でできている
1個の コピーし
受精卵 て増やす
遺伝子は全部で約3万種
類,
30億文字ある。
中にはたくさん
の遺伝子が入っ
ている
新聞50年分:
朝刊と夕刊をすみからすみまで読んで,
365日×50年 分
DNA
生まれつき遺伝子は少しずつちがう
一人一人の遺伝子の違いは
約0.1%
1個の
受精卵
やせた人
コピー
して増
やす
30億文字の中で300万
カ所
太った人
この違いにより,体質が決
まる
がんになりやすさも違って
くる
肌の色が違う人
地球上70億人の「個人」の多様性
[http://nordwave.net/Great_Britain/category/science/]
•
一塩基多型(SNP)
•
挿入,欠失(Indel)
•
コピー数多型(CNV)
•
構造多型(SV)
•
目の色
•
肌の色
•
糖尿病になりやすさ
•
がんになりやすさ
Catalog of Published Genome-Wide Association Studies
NHGRI GWA Catalog
www.genome.gov/GWAStudies
www.ebi.ac.uk/fgpt/gwas/ Catalog of Published Genome-Wide Association Studies
1番染色体
病気の原因:『多因子疾患』
(Multi-factor disease)
EHRデータ
PHRデータ
+
オミックスデータ
「ゲノムから病気に挑む」による
予測学
(Predictive Analytics)
• 多くの事象は予測できると主張
「何を買うか」から「いつ死ぬか」まで,あなたの行動はすべて読まれている
• データはつねに昨日より今日のほうが多い
• それらが適切に分析されれば予測が可能になる
• 保険会社は被保険者の死亡年齢を予測
• 患者が30日以内に再入院するかどうか
を予測して退院の判断に役立てる
• 米国税庁は予測技術から脱税摘発を25倍
に増加
• ある州では犯罪が起きやすい地域を予測し
た上で警官が巡回する
「ヤバい予測学」,
エリック・シーゲル (著), 矢羽野薫 (翻訳)
予測による予防
(Prevention by prediction)
【禁煙開始年齢と肺がん死】
喫煙継続者
「肺がん」
「喫煙」
肺がん死の危険度
強い相関
60歳で禁煙
50歳で禁煙
予測因子
40歳で禁煙
30歳で禁煙
非喫煙者
45
55 年齢(才) 65
75
Smoking, smoking cessation, and lung cancer in the UK,
BMJ 2000, 321: 323‐329
バイオインフォマティクスという分野
「なぜ生命科学の解析にコンピュータが必要なのか?」
① 近年の生命科学データの爆発的な増大!
② コンピュータを用いる2つのアプローチ:
i. 網羅的(ハイスループット)なウエット実験から生成される
大量データの処理
ii. 実験前にコンピュータによる情報処理を徹底的に行うこと
により,ウエット実験を絞り込み効率化する ⇒インシリコ
スクリーニング
③バイオインフォマティシャンの育成は喫緊の課題
(データサイエンティストの育成)
ハイスループット実験装置と情報処理
【マイクロアレイ】
+
プロファイル解析
プログラム
+
マススペクトル解析
プログラム
+
アセンブリ,マッピング
プログラム
(GenePix)
【質量分析装置】
(島津製作所)
【次世代シークエンサー】
ATGCATATGC
CATGCATAGC
ATTGTTGCTA
ATGCATATGC
(Illumina)
新しい実験プロトコルの定義
【従来の実験プロトコル】
ウエット実験
結果:
1 or 0
サンプル抽出,PCR,電気泳動,…
【新しいプロトコルの概念】
【網羅的研究アプローチ】
個々の遺伝子をクローニングするのではなく,
ハイスルー
情報処理
ウエット実験
ゲノムを丸ごと読んでしまう
プット実験 大量
データ
装置
大量のハイスループットデータを解析するためには,
コンピュータを用いた大規模計算が不可欠
結果
データ解析を支えるコンピュータシステム
クラスターマシン
① 超並列・分散計算
多数のCPU
② 大容量メモリ
ギガバイト,テラバイト
③ 大容量ディスク
テラバイト,ペタバイト
信濃町キャンパス クラスターマシン室
• ピーク性能:4TFLOPS
(小型スパコンレベル)
• 2TBメモリマシン
情報科学・工学のフロンティアは
生命科学にあり
『ビッグデータは,現在の医学や生物学
の常識を根底からくつがえすだろう』
講義webページと参考書,単位など
http://www.dna.bio.keio.ac.jp/lecture/bioinfo/
教科書なし
参考書: (いろいろ出版されているが...)
例えば,「はじめてのバイオインフォマティクス 」
藤 博幸 (編集) ,講談社 (2,940円)
単位:期末試験 (+数回の演習)