全体を眺める(2)

生物統計学・第3回
全体を眺める(2)
ウェブツール、クラスタリング、ヒートマップ
2015年10月13日
生命環境科学域 応用生命科学類
尾形 善之
前回のフォロー
★前回はヒストグラムを作りました
♦森の解析だけではほとんど考察できません
★今回は、注目遺伝子を選ぶところから始
めます
♦ヒストグラムは次回もう一度取り組みます
♦そこで「木→森→木」の考察をします
生物データとグラフ
At1g56650と似た
遺伝子発現データ
をもつ遺伝子群
こうなると折れ線で
ないと眺めにくい
これも森を見るためのグラフで
す
枯れていく葉で高発現
注目遺伝子の選び方
★注目する遺伝子を選んでください。
♦選び方1
• ランダムにひとつ選ぶ(できれば発現量が多い遺伝
子)。
♦選び方2
• ウェブツールで特徴的な発現を示すものを選ぶ。
♦選び方3
• NCBIでキーワードで検索して選ぶ。
さっそく本日の本題
★クラスタリング(「クラスター分析」とも言います)
♦データを分類するのに使います
★各種クラスタリング
♦主成分分析(第12回から3回にわたってやります)
♦階層(的)クラスタリングが一番有名です
♦その他
• 自己組織化マップ(SOM)、ネットワーク解析、
ヒートマップなど
階層クラスタリング
★最も近い関係のものを線で繋ぐ
♦トーナメント戦のやぐらの形
★固まっているもの同士が似ている
♦階段状には注意!
階層クラスタリンク
階層クラスタリング
★Rでは「dist」と「hclust」を使う
★ヒートマップと組み合わせて利用できま
す
♦次のスライドで説明します
階層クラスタリングとヒートマップ
★図の説明
♦縦:実験
♦横:遺伝子
♦赤いほど発現量
が多い
♦これで50遺伝子
実はこれもヒートマップです
チェックポイント・I
1. 階層(的)クラスタリングとは?
2. ヒートマップとは?
自己組織化マップ(SOM)
79実験での遺伝子発現
遺伝子名
遺伝子の発現傾向を分類できるが、丸の数は自分で決める
ネットワーク解析
遺伝子の関係は見やすいが、発現傾向は同時には見れない
クラスター分析の使い分け
★主成分分析(第12回からじっくりと)
♦ともかくまずはこれが便利
★階層クラスタリング(ヒートマップ付きで)
♦遺伝子発現と実験の両方を見たいとき
★自己組織化マップ(グループ数を固定)
♦グループ分けが目的のとき
★ネットワーク解析(大きいほど有利)
♦全体の分かれ方を見たいとき
チェックポイント・II
3. クラスター解析の使い分けは?
本日の実習
★注目する遺伝子を選ぶ
♦詳しくは手順書を参照。
★ウェブでのグラフ解析
♦折れ線グラフを作る。
♦各組織の模式図にマッピングする。
★Rでクラスター解析する(今回は作業の紹介だけ)
♦階層クラスタリングする。
♦ヒートマップを作成する。
本日の課題・1
★シロイヌナズナの遺伝子発現データ79
実験条件を手に入れました。
1.
注目する遺伝子のIDを書いてください。
2.
これらのデータを全体的にどのように眺
めたらよいか説明しなさい。
3.
注目した遺伝子について眺めた結果に
ついて考察しなさい。
本日の課題・2
★クラスター解析をした感想や疑問点を書
いてください。