第2主成分

生物統計学・第12回
全体を眺める(3)
-主成分分析1:分析の基本-
2015年12月22日
生命環境科学域 応用生命科学類
尾形 善之
相関係数と決定係数の違い
★相関係数(𝑹)
♦ ふたつのデータが似ているかを調べる
♦ 正と負の符号に意味が出てくる
𝟐
★決定係数(𝑹 )
♦ 実測値と理論値の当てはまり具合を調べる
♦ 正と負の符号を考えない
♦ 曲線との当てはまり具合を調べることもできる
第12~14回の授業
★第12回(今回)
♦ 主成分分析の目的、原理、基本的な使い方
★第13回(来年)
♦ 主成分分析のリマインド、注目遺伝子の考察
★第14回
♦ 主成分分析の実用的な使い方
多変量解析の種類
★多変量解析の種類
♦ 主成分分析
♦ 重回帰分析
♦ クラスター分析
♦ 相関解析
などなど……
主成分分析
★多変量解析の代表格
♦ よく「PCA」と呼ばれます
♦ 間違って「PCA解析」とも呼ばれます
♦ Principal Component Analysis
♦ 「principal component」が「主成分」です
多変量とは…
★変量 = 変数 = 今回は「実験」
★要素 = 今回は「遺伝子」、こちらが主役
★多変量、つまりたくさんの実験データの
こと
★たくさんの実験データから、遺伝子の特
徴を調べる
主成分分析とは…
★ある遺伝子の発現の特徴を知りたくて、
79組織のデータを手に入れた。
★79個も実験データがあると、どの組織の
実験で発現しているかを決めるのが大
変。
★そこで、実験をいくつかに纏めて考える。
♦ 纏めた実験のグループが「主成分」。
主成分とは…
★実験(成分)を似ているもので纏めたも
の
♦ 同じ組織の実験での発現量は似ているはず
• 例えば、葉の組織
• 例えば、花の組織
• 例えば、根の組織
ここから主成分分析の原理
★まずはふたつの実験で考える
♦ ばらつきの大きい方向に軸を選ぶ
実験
(成分)2
実験
主成分
成分1
50%
80%
成分2
50%
20%
寄与率
50%
○は遺伝
子
寄与率50%
発現量
実験(成分)1
言い換えると……
★データがばらつく方向に合わせて、新し
い軸を作る
第1主成分方向に投影すると
…
第2主成分方向にばらつく
寄与率とは…
★それぞれの主成分が実験全体をどの程
度表しているか
★分散の値を使う
♦ 各主成分の分散/データ全体の分散
★後でもう少し詳しく……
整理してみると…
★元の実験成分は独立と考える
♦ それぞれの寄与率は50%
★主成分はばらつきを表す程度で分配され
る
♦ 第1主成分の寄与率は80%
♦ 第2主成分の寄与率は20%
主成分分析の目的
★多変量データに対して、遺伝子群(要
素)と実験群(変数)との関係を纏めて評
価する
♦ 遺伝子と実験を繋ぐのが、それぞれの主成分の役
割
主成分
♦ 他の分析方法では、要素または変数のどちらかの
実験
遺伝子
特徴を見ることはできる
チェックポイント・I
1. 主成分分析とは?
2. 主成分分析の原理は?
3. 主成分分析の目的は?
主成分分析の基本
★3つのグラフ
♦ 寄与率:主成分のための指標
• 主成分のデータ全体に対する影響力を表す
♦ 負荷量:実験のための指標
負荷量
寄与率
得点
• 実験と主成分との関係を表す
♦ 得点:遺伝子のための指標
• 遺伝子と主成分との関係を表す
♦ 結果として、主成分を通じて、実験と遺伝子が繋が
る
寄与率
★主成分はばらつきの大きい方向に選ぶ
♦ 主成分の分散の値が、データの特徴を示す指標
になる
♦ 第1主成分だけでデータ全体の80%の特徴を表
していることになる
寄与率のグラフ
データ全体をよく表して
いる
この辺りも何か役に立
つことを表しているかも
• 寄与率が高いほど、
データの特徴をよ
く表している
• 別の主成分は別の
特徴を表す
実際の寄与率
★79実験(成分)がおもに8つの成分(主
成分)に纏められる。
累積で95%を超え
る主成分までを採
用
しかし……
分散の累積(%)
第1主成分
12120
61.1
第2主成分
5282
72.8
第3主成分
4912
82.8
第4主成分
3909
89.2
第5主成分
2695
92.2
第6主成分
1924
93.7
第7主成分
1488
94.6
第8主成分
1321
95.4
第9主成分
1111
95.9
74
100.0
…
標準偏差( 分散)
第79主成分
79実験で考えると…
実験 主成分 累積
★読み方
1.3%
61.1%
61.1
成分2
1.3%
11.6%
72.8
♦ 元の実験の寄与率は1.3%
成分3
1.3%
10.0%
82.8
♦ 第1主成分の寄与率が61.1%
成分4
1.3%
6.4%
89.2
成分5
1.3%
3.0%
92.2
成分6
1.3%
1.5%
93.7
成分7
1.3%
0.9%
94.6
• この主成分が表す特徴が大き
い
成分8
1.3%
0.7%
95.4
♦ 第8主成分で累積95%となる
成分9
1.3%
0.5%
95.9
成分79 1.3%
0.01%
…
成分1
• 寄与率の大半を占めている
• 第8主成分までが有効?
• ただし、元の1.3%以上を選ぶ
負荷量
第2主成分
第2主成分
★絶対値が大きい実験に注目
第1主成分
第1主成分
得点
★絶対値が大きいものに注目
★負荷量で注目した実験と同じ符号を探
す
ランダムなデータの得点
★ランダムなデータの場合、原点の周りに
方向性なく集まる
さまざまな主成分の得点
第4主成分
第2主成分
★ランダムデータの得点に比べて、どの主
成分も特徴的である
第1主成分
第3主成分
負荷量グラフの原点……
★第1主成分の軸に原点がない!
♦ どうやら第1主成分は発現量の大きさを表してい
る
原点がない
原点がある
♦ 標準化したデータであれば、原点が出てくる
負荷量
得点
標準化データの主成分分析
★標準化すると、発現量の大きさが消える
♦ 第48主成分でようやく累積95%に!
♦ でも、寄与率1.3%を超えるのは、第13主成分まで
主成分分析の長所と短所
★長所
♦ ともかく全体を眺める(森を見る)のに便利
♦ 解析ツールが充実している
♦ みんなを納得させるのにも使える
★短所
♦ 主成分の意味が分かりにくいときがある
♦ 実はあまり綺麗に分かれてこないことがある
チェックポイント・II
4. 寄与率とは?
5. (主成分)得点とは?
6. (主成分)負荷量とは?
7. ランダムデータの主成分分析の特徴は?
8. 標準化データの主成分分析の特徴は?
実習に使うデータの説明
★「atgenx4biostatpca.txt」
♦ 遺伝子数は変わらず、22,746遺伝子
♦ 実験数は繰り返しなしで79実験
• 中央値を選んでいます
♦ 実験名の書き方が変わっています
• 実験名を主成分分析のラベルで使います
– ラベルだけで組織が分かるように変えています
• 次のスライドで説明します
• 数字は「ATGE_」以下の数字と一致します
発現データの組織名の説明
♦ A: apex、頂端分裂組織、つぼみ
♦ D: seed、種子
♦ F: flower、花
♦ I: inflorescence、花序、花の組織
♦ L: leaf、葉
♦ O: old leaf (senescing leaf)、枯葉
♦ P: pollen、花粉、雄しべ
♦ R: root、根
♦ S: stem、茎
♦ W: whole plant、植物全体
本日の実習
★主成分分析の操作に慣れる。
★それぞれのグラフの意味を理解する。
♦ 寄与率、負荷量、得点
★標準化データで主成分分析する。
♦ 元のデータの主成分分析と比べる。
本日の課題
★元のデータと標準化したデータの主成
分分析を比べて考察しなさい。
♦ 寄与率、負荷量、得点のグラフを比べる。
★主成分分析の感想や疑問点を書いてく
ださい。
♦ 次回の講義で説明します。