生物統計学・第1回 統計解析を始める前に

生物統計学・第7回
全体を眺める(4)
主成分分析-2
(各種グラフの描き方と解釈)
2014年11月11日
生命環境科学域 応用生命科学類
尾形 善之
今回と次回の作業
★実習中心で進めます!
★今回
♦ ヒートマップ作成(約30分)
♦ モデルデータでの主成分分析の練習(約1時間)
★次回
♦ 注目遺伝子に関連する主成分分析(時間全体)
まずはヒートマップ
★多かった質問
♦ 矢印「<-」の書き方
• 半角「<」(小なり)と「-」(マイナス)の2文字
• 「=」でもOKです
♦ バックスラッシュの書き方
• 半角「\」をキーボードで打つと、R画面上では「 」
• 「/」(スラッシュ)と間違えやすい
♦ デスクトップにファイルを置く
• デスクトップのフォルダの中ではダメ
チェックポイント・I
1. ヒートマップの作成方法は理解できました
か?
主成分分析の目的
★79実験条件あると、79個の軸でデータ
を見ないといけない
♦ 2実験なら、そのままグラフ化
★なるべく少ない軸(できれば2つの軸)で
データ全体を眺めたい
♦ そのためには、うまく実験データを組み合わせた
い
主成分分析の最終目標
遺伝子をグループ分けしたい
なるべくばらばらにして見たい
データがばらつく軸を決めたい
主成分分析とは……
★データセットの情報(発現量)を「ばらつ
き」に注目して評価する
★できるだけ大きなばらつきを表せる軸
(主成分)を設定する
★大きなばらつきを表せたら、その主成分
で要素(遺伝子)のグループ分けがしや
すくなる
目で見る主成分分析の原理
実験
(成分)2
★主成分の利点
幅140
幅100
発現量
実験(成分)1
♦ 1.4倍の幅でデータ(点)を表すこ
とができる
♦ データを分けやすくしている
主成分の意味を解釈する
★その主成分に対する実験の負荷量から
推理(推察)する
★予め注目する実験群がある場合は、そ
の実験群がうまく分かれる主成分を探す
うまく分かれない場合
★データセットを工夫してみる
♦ 標準化処理
♦ 不要なデータの削除(有効データの抽出)
♦ ただし、「恣意的」にならないように!
★それでもうまくいかなかったら……
♦ 実験をやり直す……
標準化データ
★計算式
♦𝑍 =
308.5−137.3
319.3
= 0.536
♦ 𝑍値の場合は、正負が混ざります
元のデータ
標準化データ
308.5
0.536
77.2
-0.187
69.7
-0.209
96.2
-0.127
標準化データでの主成分分析
標準化前の寄与率
標準化後の寄与率
標準化前の第一主成分が消えた!
標準化データでの主成分分析
標準化前の負荷量
標準化後の負荷量
負荷量のグラフに原点が出現!
標準化データでの主成分分析
標準化前の負荷量
標準化後の負荷量
ちょっと似ていませんか? やっぱり変な花粉です
標準化データでの主成分分析
標準化前の得点
標準化後の得点
得点の分布がやや均等になっています
標準化データでの主成分分析
標準化前の得点
標準化後の得点
細かく見るとけっこう違いますね
主成分分析のグラフの使い方
1.
寄与率:主成分のための指標
♦ どの主成分がデータ全体をうまく表しているか
• 高い寄与率の主成分(主成分Aとする)を選ぶ
2. 得点:遺伝子のための指標
♦ 注目遺伝子が主成分Aと関係しているか
• 主成分の意味付けから遺伝子の特徴を推定する
3. 負荷量:実験条件のための指標
♦ どの実験が主成分Aに関わっているか
• 主成分の意味を実験条件で意味づける
寄与率:主成分のための指標
データ全体をよく表して
いる
この辺りも何か役に立
つことを表しているかも
★高い寄与率の主
成分を選ぶ
♦ データ全体を表して
いる
• 注目遺伝子を特徴
付けられるか?
得点:遺伝子のための指標
それぞれの遺伝子を表
す
目盛りはあくまで
目安です
得点=遺伝子の発現量(平均との差)×各実験の負荷量
★ランダムとの比較
♦ データに特徴があるかを確認
At1g56650
★注目遺伝子
♦ 主成分ごとに位置を確認(今回は正)
負荷量:実験条件のための指標
★各成分
♦ 絶対値が大きい
実験条件に注目
• 目盛は目安です
♦ 第1主成分
成熟している組
織
• すべての実験条
件が「負」
– 注目遺伝子は
「正」
• ○に対応する実
験群は?
チェックポイント・II
2. 寄与率は分かりましたか?
3. 得点は分かりましたか?
4. 負荷量は分かりましたか?
5. 主成分の解釈方法は分かりました
か?
次回までの予習
★次回は「Rを用いた主成分分析」の応用
です。
♦ 寄与率、得点、負荷量の解釈について、もう一度、
確認しておいてください。