Document

生物統計学・第13回
全体を眺める(4)
-主成分分析2:グラフの解釈-
2016年1月12日
生命環境科学域 応用生命科学類
尾形 善之
前回のフォロー
第12~14回の授業
★第12回(今回)
♦ 主成分分析の目的、原理、基本的な使い方
★第13回(来年)
♦ 主成分分析のリマインド、注目遺伝子の考察
★第14回
♦ 主成分分析の実用的な使い方
主成分分析の基本
★3つのグラフ
♦ 寄与率:主成分のための指標
• 主成分のデータ全体に対する影響力を表す
♦ 負荷量:実験のための指標
負荷量
寄与率
得点
• 実験と主成分との関係を表す
♦ 得点:遺伝子のための指標
• 遺伝子と主成分との関係を表す
♦ 結果として、主成分を通じて、実験と遺伝子が繋が
る
寄与率のグラフ
データ全体をよく表して
いる
この辺りも何か役に立
つことを表しているかも
• 寄与率が高いほど、
データの特徴をよ
く表している
• 別の主成分は別の
特徴を表す
寄与率の纏め
★寄与率は主成分のばらつきの割合を表
す
★有効な主成分の決め方
♦ 寄与率が元の実験の寄与率より大きい主成分
• 今回の場合は、
𝟏
𝟕𝟗
= 𝟎. 𝟎𝟏𝟑 = 𝟏. 𝟑%
♦ 累積寄与率が95%を超える主成分まで
負荷量
第2主成分
第2主成分
★絶対値が大きい実験に注目
第1主成分
第1主成分
得点
★絶対値が大きいものに注目
★負荷量で注目した実験と同じ符号を探
す
ランダムなデータの得点
★原点の周りに方向性
なく集まる
★ランダムデータとの違
いに注目する
さまざまな主成分の得点
第4主成分
第2主成分
★ランダムデータの得点に比べて、どの主
成分も特徴的である
第1主成分
第3主成分
負荷量グラフの原点……
★第1主成分の軸に原点がない!
♦ どうやら第1主成分は発現量の大きさを表してい
る
原点がない
原点がある
♦ 標準化したデータであれば、原点が出てくる
負荷量
得点
標準化データの主成分分析
★標準化すると、発現量の大きさが消える
♦ 第48主成分でようやく累積95%に!
♦ でも、寄与率1.3%を超えるのは、第13主成分まで
より多くの特徴を調べることができるように
なる
主成分分析の長所と短所
★長所
♦ ともかく全体を眺める(森を見る)のに便利
♦ 解析ツールが充実している
♦ みんなを納得させるのにも使える
★短所
♦ 主成分の意味が分かりにくいときがある
♦ 実はあまり綺麗に分かれてこないことがある
チェックポイント・I
1. 負荷量と得点のグラフを組み合わせるこ
とで何を調べることができるか?
2. 標準化すると、なぜより多くの特徴を調
べることができるようになるのか?
本日の実習
★標準化データで主成分分析する。
★注目遺伝子の得点を調べる。
♦ 第13主成分までを調べる。
★注目遺伝子と実験との関係を調べる。
本日の課題
★注目遺伝子はどの組織でよく発現して
いると考えられるか。
★注目遺伝子と同じような組織で発現して
いると考えられる遺伝子を探しなさい。
★主成分分析は理解できましたか?