生物統計学・第1回 統計解析を始める前に

生物統計学・第3回
全体を眺める(2)
クラスタリング、ヒートマップ
2014年10月14日
生命環境科学域 応用生命科学類
尾形 善之
前回のリベンジ
★作業マニュアルを作りました
♦ いつもの場所から、「sagyotejun141014.docx」とい
うファイルをダウンロードしてください。
♦ 実習は今回のものと併せて後で行います。
さっそく本日の本題
★クラスタリング(「クラスター分析」とも言います)
♦ データを分類するのに使います
• 実験群のクラスター
• 遺伝子群のクラスター
★各種クラスタリング
♦ 主成分分析(第6回から3回にわたってやります)
♦ 階層(的)クラスタリングが一番有名です
♦ その他
• 自己組織化マップ(SOM)、ネットワーク解析、ヒートマッ
プなど
階層クラスタリング
★最も近い関係のものを線で繋ぐ
♦ トーナメント戦のやぐらの形
★固まっているもの同士が似ている
♦ 階段状には注意!
階層クラスタリンク
階層クラスタリング
★Rでは「dist」と「hclust」を使う
♦ 第6回のRの回で実習します
★ヒートマップと組み合わせて利用できま
す
♦ 次のスライドで説明します
階層クラスタリングとヒートマップ
★図の説明
♦ 縦:実験
♦ 横:遺伝子
♦ 赤いほど発現量が
多い
♦ これで50遺伝子
実はこれもヒートマップです
チェックポイント・I
1. 階層(的)クラスタリングとは?
2. ヒートマップとは?
自己組織化マップ(SOM)
79実験での遺伝子発現
遺伝子名
遺伝子の発現傾向を分類できるが、丸の数は自分で決める
ネットワーク解析
遺伝子の関係は見やすいが、発現傾向は同時には見れない
クラスター分析の使い分け
★主成分分析(第6回からじっくりと)
♦ ともかくまずはこれが便利
★階層クラスタリング(ヒートマップ付きで)
♦ 遺伝子発現と実験の両方を見たいとき
★自己組織化マップ(グループ数を固定)
♦ グループ分けが目的のとき
★ネットワーク解析
♦ 全体の分かれ方を見たいとき
チェックポイント・II
3. クラスター解析の使い分けは?
本日の実習
★ヒストグラムの作成
♦ 遺伝子発現データをエクセルで開く。
♦ 遺伝子ごとの平均値を計算する。
♦ 平均値のヒストグラムを作る。
★ウェブでのグラフ解析
♦ 折れ線グラフを作る。
♦ 各組織の模式図にマッピングする。
本日の実習
(sagyotejun141014.docx)
★遺伝子発現データをエクセルで開く
★ウェブで解析する
★エクセルで平均値を計算する
★エクセルでヒストグラムを作る
★結果を解釈する(本日の課題)
リンク先
★折れ線グラフ
♦ http://jsp.weigelworld.org/expviz/expviz.jsp
★模式図
♦ http://bar.utoronto.ca/efp/cgi-bin/efpWeb.cgi
次回までの予習
★次回は「比べる準備をする」の1回目で
す
♦ 平均
♦ 分散
♦ ばらつき
本日の課題
★注目する遺伝子について
♦ どの組織で発現しているか考察しなさい。
♦ 発現量の平均値を求めなさい。
♦ ヒストグラムの中の位置について考察しなさい。
★クラスタリングとヒートマップに対する疑問
点や印象を書いてください。