生物統計学・第12回 全体を眺める(3) -主成分分析1:分析の基本- 2015年12月22日 生命環境科学域 応用生命科学類 尾形 善之 相関係数と決定係数の違い ★相関係数(𝑹) ♦ ふたつのデータが似ているかを調べる ♦ 正と負の符号に意味が出てくる 𝟐 ★決定係数(𝑹 ) ♦ 実測値と理論値の当てはまり具合を調べる ♦ 正と負の符号を考えない ♦ 曲線との当てはまり具合を調べることもできる 第12~14回の授業 ★第12回(今回) ♦ 主成分分析の目的、原理、基本的な使い方 ★第13回(来年) ♦ 主成分分析のリマインド、注目遺伝子の考察 ★第14回 ♦ 主成分分析の実用的な使い方 多変量解析の種類 ★多変量解析の種類 ♦ 主成分分析 ♦ 重回帰分析 ♦ クラスター分析 ♦ 相関解析 などなど…… 主成分分析 ★多変量解析の代表格 ♦ よく「PCA」と呼ばれます ♦ 間違って「PCA解析」とも呼ばれます ♦ Principal Component Analysis ♦ 「principal component」が「主成分」です 多変量とは… ★変量 = 変数 = 今回は「実験」 ★要素 = 今回は「遺伝子」、こちらが主役 ★多変量、つまりたくさんの実験データの こと ★たくさんの実験データから、遺伝子の特 徴を調べる 主成分分析とは… ★ある遺伝子の発現の特徴を知りたくて、 79組織のデータを手に入れた。 ★79個も実験データがあると、どの組織の 実験で発現しているかを決めるのが大 変。 ★そこで、実験をいくつかに纏めて考える。 ♦ 纏めた実験のグループが「主成分」。 主成分とは… ★実験(成分)を似ているもので纏めたも の ♦ 同じ組織の実験での発現量は似ているはず • 例えば、葉の組織 • 例えば、花の組織 • 例えば、根の組織 ここから主成分分析の原理 ★まずはふたつの実験で考える ♦ ばらつきの大きい方向に軸を選ぶ 実験 (成分)2 実験 主成分 成分1 50% 80% 成分2 50% 20% 寄与率 50% ○は遺伝 子 寄与率50% 発現量 実験(成分)1 言い換えると…… ★データがばらつく方向に合わせて、新し い軸を作る 第1主成分方向に投影すると … 第2主成分方向にばらつく 寄与率とは… ★それぞれの主成分が実験全体をどの程 度表しているか ★分散の値を使う ♦ 各主成分の分散/データ全体の分散 ★後でもう少し詳しく…… 整理してみると… ★元の実験成分は独立と考える ♦ それぞれの寄与率は50% ★主成分はばらつきを表す程度で分配され る ♦ 第1主成分の寄与率は80% ♦ 第2主成分の寄与率は20% 主成分分析の目的 ★多変量データに対して、遺伝子群(要 素)と実験群(変数)との関係を纏めて評 価する ♦ 遺伝子と実験を繋ぐのが、それぞれの主成分の役 割 主成分 ♦ 他の分析方法では、要素または変数のどちらかの 実験 遺伝子 特徴を見ることはできる チェックポイント・I 1. 主成分分析とは? 2. 主成分分析の原理は? 3. 主成分分析の目的は? 主成分分析の基本 ★3つのグラフ ♦ 寄与率:主成分のための指標 • 主成分のデータ全体に対する影響力を表す ♦ 負荷量:実験のための指標 負荷量 寄与率 得点 • 実験と主成分との関係を表す ♦ 得点:遺伝子のための指標 • 遺伝子と主成分との関係を表す ♦ 結果として、主成分を通じて、実験と遺伝子が繋が る 寄与率 ★主成分はばらつきの大きい方向に選ぶ ♦ 主成分の分散の値が、データの特徴を示す指標 になる ♦ 第1主成分だけでデータ全体の80%の特徴を表 していることになる 寄与率のグラフ データ全体をよく表して いる この辺りも何か役に立 つことを表しているかも • 寄与率が高いほど、 データの特徴をよ く表している • 別の主成分は別の 特徴を表す 実際の寄与率 ★79実験(成分)がおもに8つの成分(主 成分)に纏められる。 累積で95%を超え る主成分までを採 用 しかし…… 分散の累積(%) 第1主成分 12120 61.1 第2主成分 5282 72.8 第3主成分 4912 82.8 第4主成分 3909 89.2 第5主成分 2695 92.2 第6主成分 1924 93.7 第7主成分 1488 94.6 第8主成分 1321 95.4 第9主成分 1111 95.9 74 100.0 … 標準偏差( 分散) 第79主成分 79実験で考えると… 実験 主成分 累積 ★読み方 1.3% 61.1% 61.1 成分2 1.3% 11.6% 72.8 ♦ 元の実験の寄与率は1.3% 成分3 1.3% 10.0% 82.8 ♦ 第1主成分の寄与率が61.1% 成分4 1.3% 6.4% 89.2 成分5 1.3% 3.0% 92.2 成分6 1.3% 1.5% 93.7 成分7 1.3% 0.9% 94.6 • この主成分が表す特徴が大き い 成分8 1.3% 0.7% 95.4 ♦ 第8主成分で累積95%となる 成分9 1.3% 0.5% 95.9 成分79 1.3% 0.01% … 成分1 • 寄与率の大半を占めている • 第8主成分までが有効? • ただし、元の1.3%以上を選ぶ 負荷量 第2主成分 第2主成分 ★絶対値が大きい実験に注目 第1主成分 第1主成分 得点 ★絶対値が大きいものに注目 ★負荷量で注目した実験と同じ符号を探 す ランダムなデータの得点 ★ランダムなデータの場合、原点の周りに 方向性なく集まる さまざまな主成分の得点 第4主成分 第2主成分 ★ランダムデータの得点に比べて、どの主 成分も特徴的である 第1主成分 第3主成分 負荷量グラフの原点…… ★第1主成分の軸に原点がない! ♦ どうやら第1主成分は発現量の大きさを表してい る 原点がない 原点がある ♦ 標準化したデータであれば、原点が出てくる 負荷量 得点 標準化データの主成分分析 ★標準化すると、発現量の大きさが消える ♦ 第48主成分でようやく累積95%に! ♦ でも、寄与率1.3%を超えるのは、第13主成分まで 主成分分析の長所と短所 ★長所 ♦ ともかく全体を眺める(森を見る)のに便利 ♦ 解析ツールが充実している ♦ みんなを納得させるのにも使える ★短所 ♦ 主成分の意味が分かりにくいときがある ♦ 実はあまり綺麗に分かれてこないことがある チェックポイント・II 4. 寄与率とは? 5. (主成分)得点とは? 6. (主成分)負荷量とは? 7. ランダムデータの主成分分析の特徴は? 8. 標準化データの主成分分析の特徴は? 実習に使うデータの説明 ★「atgenx4biostatpca.txt」 ♦ 遺伝子数は変わらず、22,746遺伝子 ♦ 実験数は繰り返しなしで79実験 • 中央値を選んでいます ♦ 実験名の書き方が変わっています • 実験名を主成分分析のラベルで使います – ラベルだけで組織が分かるように変えています • 次のスライドで説明します • 数字は「ATGE_」以下の数字と一致します 発現データの組織名の説明 ♦ A: apex、頂端分裂組織、つぼみ ♦ D: seed、種子 ♦ F: flower、花 ♦ I: inflorescence、花序、花の組織 ♦ L: leaf、葉 ♦ O: old leaf (senescing leaf)、枯葉 ♦ P: pollen、花粉、雄しべ ♦ R: root、根 ♦ S: stem、茎 ♦ W: whole plant、植物全体 本日の実習 ★主成分分析の操作に慣れる。 ★それぞれのグラフの意味を理解する。 ♦ 寄与率、負荷量、得点 ★標準化データで主成分分析する。 ♦ 元のデータの主成分分析と比べる。 本日の課題 ★元のデータと標準化したデータの主成 分分析を比べて考察しなさい。 ♦ 寄与率、負荷量、得点のグラフを比べる。 ★主成分分析の感想や疑問点を書いてく ださい。 ♦ 次回の講義で説明します。
© Copyright 2025 ExpyDoc