Document

生物統計学・第14回
全体を眺める(5)
-主成分分析3:生物データを使った実践
-
2016年1月19日
生命環境科学域 応用生命科学類
尾形 善之
第12~14回の授業
★第12回(今回)
♦ 主成分分析の目的、原理、基本的な使い方
★第13回(来年)
♦ 主成分分析のリマインド、注目遺伝子の考察
★第14回
♦ 主成分分析の実用的な使い方
期末レポートの予告
★シロイヌナズナの36実験のデータを使い
ます。
♦ 詳しくは次回(最終回)に話します。
★実験群のID: 「GSE62256」
♦ NCBIのサイトで確認できます。
★データのアップロードは、水~木曜日です。
★レポートの目的
♦ このデータの実験群の特徴を捉えて、実験区で特
異的に発現する遺伝子を探します。
主成分分析の基本
★3つのグラフ
♦ 寄与率:主成分のための指標
• 主成分のデータ全体に対する影響力を表す
♦ 負荷量:実験のための指標
負荷量
寄与率
得点
• 実験と主成分との関係を表す
♦ 得点:遺伝子のための指標
• 遺伝子と主成分との関係を表す
♦ 結果として、主成分を通じて、実験と遺伝子が繋が
る
寄与率の纏め
★寄与率は主成分のばらつきの割合を表
す
★有効な主成分の決め方
♦ 寄与率が元の実験の寄与率より大きい主成分
• 今回の場合は、
𝟏
𝟕𝟗
= 𝟎. 𝟎𝟏𝟑 = 𝟏. 𝟑%
♦ 累積寄与率が95%を超える主成分まで
負荷量
第2主成分
第2主成分
★絶対値が大きい実験に注目
第1主成分
第1主成分
得点
★絶対値が大きいものに注目
★負荷量で注目した実験と同じ符号を探
す
ランダムなデータの得点
★原点の周りに方向性
なく集まる
★ランダムデータとの違
いに注目する
さまざまな主成分の得点
第4主成分
第2主成分
★ランダムデータの得点に比べて、どの主
成分も特徴的である
第1主成分
第3主成分
主成分分析の長所と短所
★長所
♦ ともかく全体を眺める(森を見る)のに便利
♦ 解析ツールが充実している
♦ みんなを納得させるのにも使える
★短所
♦ 主成分の意味が分かりにくいときがある
♦ 実はあまり綺麗に分かれてこないことがある
ここまでの主成分分析の纏め
★「木を見て森を見てまた木を見る」
★まず、注目する遺伝子を決める。
★注目遺伝子を通して全体を眺める。
♦ 主成分分析で、どのように眺めればよいかが分か
る。
★全体の中から特徴的なものを見つける。
♦ 組織特異的に発現する遺伝子を見つける。
★もう一度、木を見る。
♦ 本当にその遺伝子がその組織で発現しているか?
本日の実習
★標準化データで主成分分析する。
★得点のグラフについて、特徴的な主成
分のグラフを探す。
★特徴的な主成分について、得点と負荷
量を出力する。
★エクセルで、遺伝子と実験の関係を調
べる。
本日の課題
★主成分分析を通じて、組織特異的な発
現を示す遺伝子を見つけなさい。
★見つけた遺伝子について、エクセルで
発現傾向を確認して、主成分分析で見
つけた組織の特異性について考察しな
さい。
★主成分分析の理解は深まりましたか?