生物統計学・第7回 全体を眺める(4) 主成分分析-2 (各種グラフの描き方と解釈) 2014年11月11日 生命環境科学域 応用生命科学類 尾形 善之 今回と次回の作業 ★実習中心で進めます! ★今回 ♦ ヒートマップ作成(約30分) ♦ モデルデータでの主成分分析の練習(約1時間) ★次回 ♦ 注目遺伝子に関連する主成分分析(時間全体) まずはヒートマップ ★多かった質問 ♦ 矢印「<-」の書き方 • 半角「<」(小なり)と「-」(マイナス)の2文字 • 「=」でもOKです ♦ バックスラッシュの書き方 • 半角「\」をキーボードで打つと、R画面上では「 」 • 「/」(スラッシュ)と間違えやすい ♦ デスクトップにファイルを置く • デスクトップのフォルダの中ではダメ チェックポイント・I 1. ヒートマップの作成方法は理解できました か? 主成分分析の目的 ★79実験条件あると、79個の軸でデータ を見ないといけない ♦ 2実験なら、そのままグラフ化 ★なるべく少ない軸(できれば2つの軸)で データ全体を眺めたい ♦ そのためには、うまく実験データを組み合わせた い 主成分分析の最終目標 遺伝子をグループ分けしたい なるべくばらばらにして見たい データがばらつく軸を決めたい 主成分分析とは…… ★データセットの情報(発現量)を「ばらつ き」に注目して評価する ★できるだけ大きなばらつきを表せる軸 (主成分)を設定する ★大きなばらつきを表せたら、その主成分 で要素(遺伝子)のグループ分けがしや すくなる 目で見る主成分分析の原理 実験 (成分)2 ★主成分の利点 幅140 幅100 発現量 実験(成分)1 ♦ 1.4倍の幅でデータ(点)を表すこ とができる ♦ データを分けやすくしている 主成分の意味を解釈する ★その主成分に対する実験の負荷量から 推理(推察)する ★予め注目する実験群がある場合は、そ の実験群がうまく分かれる主成分を探す うまく分かれない場合 ★データセットを工夫してみる ♦ 標準化処理 ♦ 不要なデータの削除(有効データの抽出) ♦ ただし、「恣意的」にならないように! ★それでもうまくいかなかったら…… ♦ 実験をやり直す…… 標準化データ ★計算式 ♦𝑍 = 308.5−137.3 319.3 = 0.536 ♦ 𝑍値の場合は、正負が混ざります 元のデータ 標準化データ 308.5 0.536 77.2 -0.187 69.7 -0.209 96.2 -0.127 標準化データでの主成分分析 標準化前の寄与率 標準化後の寄与率 標準化前の第一主成分が消えた! 標準化データでの主成分分析 標準化前の負荷量 標準化後の負荷量 負荷量のグラフに原点が出現! 標準化データでの主成分分析 標準化前の負荷量 標準化後の負荷量 ちょっと似ていませんか? やっぱり変な花粉です 標準化データでの主成分分析 標準化前の得点 標準化後の得点 得点の分布がやや均等になっています 標準化データでの主成分分析 標準化前の得点 標準化後の得点 細かく見るとけっこう違いますね 主成分分析のグラフの使い方 1. 寄与率:主成分のための指標 ♦ どの主成分がデータ全体をうまく表しているか • 高い寄与率の主成分(主成分Aとする)を選ぶ 2. 得点:遺伝子のための指標 ♦ 注目遺伝子が主成分Aと関係しているか • 主成分の意味付けから遺伝子の特徴を推定する 3. 負荷量:実験条件のための指標 ♦ どの実験が主成分Aに関わっているか • 主成分の意味を実験条件で意味づける 寄与率:主成分のための指標 データ全体をよく表して いる この辺りも何か役に立 つことを表しているかも ★高い寄与率の主 成分を選ぶ ♦ データ全体を表して いる • 注目遺伝子を特徴 付けられるか? 得点:遺伝子のための指標 それぞれの遺伝子を表 す 目盛りはあくまで 目安です 得点=遺伝子の発現量(平均との差)×各実験の負荷量 ★ランダムとの比較 ♦ データに特徴があるかを確認 At1g56650 ★注目遺伝子 ♦ 主成分ごとに位置を確認(今回は正) 負荷量:実験条件のための指標 ★各成分 ♦ 絶対値が大きい 実験条件に注目 • 目盛は目安です ♦ 第1主成分 成熟している組 織 • すべての実験条 件が「負」 – 注目遺伝子は 「正」 • ○に対応する実 験群は? チェックポイント・II 2. 寄与率は分かりましたか? 3. 得点は分かりましたか? 4. 負荷量は分かりましたか? 5. 主成分の解釈方法は分かりました か? 次回までの予習 ★次回は「Rを用いた主成分分析」の応用 です。 ♦ 寄与率、得点、負荷量の解釈について、もう一度、 確認しておいてください。
© Copyright 2025 ExpyDoc