生物統計学・第3回 全体を眺める(2) 主成分分析 2013年10月21日 生命環境科学域 応用生命科学類 尾形 善之 まずは先週のリマインド ★全体を眺めるための指標 ♦ 代表値 • 算術平均、中央値、最頻値 • 調和平均 ♦ いろいろなグラフ • 棒、折れ線 • ヒートマップ いよいよ本格的な多変量解析 ★代表格:主成分分析 ♦ よく「PCA」と呼ばれます • 間違って「PCA解析」とも呼ばれます • Principal Component Analysis ★「主成分」って? ♦ データ全体の特徴を表す指標です ♦ 多次元データ → 2次元グラフ • 四次元グラフ…… • 79次元グラフ…… 教科書では… 地上部 種 目で見る主成分分析の原理 実験2 ★主成分(Z) ♦ 実験条件の数だけ引ける ♦ 優先順位がつく ★原理(ひとこと) ♦ 軸を変えている! 実験1 • できるだけばらしている! チェックポイント・I 1. 主成分分析とは? 2. 主成分とは? 3. 主成分分析の原理? 生物データセット ★シロイヌナズナのマイクロアレイデータ ♦ 79実験条件 • 組織、発達段階 ♦ 3反復 ♦ 合計237実験 生物データセット 79実験条件 遺 伝 子 (ちょっと改良) 実際の主成分分析 ★Rを使います ★Rって? ♦ いろいろな統計解析ができるツールです ♦ 特に生物統計学向きです ♦ Rの回で詳しく話します ♦ 自習用に今日の作業手順のファイルを置いてお きます • http://www.plant.osakafu-u.ac.jp/plantbio/ • 「大阪府立大学 植物バイオサイエンス」で検索 主成分分析で使う3つのグラフ ★寄与率 ★負荷量(主成分負荷量) ★得点(主成分得点) 寄与率:どのくらい貢献しているか よくばらつきを表してい る これなら第1主成分だけ見れ ばいいんじゃないか、というレ ベル 実験2 棒グラフを足していって、 全体の95%までは見ていい よ、 分散(ばらつ という暗黙の了解 き) 実験1 負荷量:どの実験が効いているか 第2主成分 それぞれの実験を表 す ひとつだけ離れている … 絶対値が大きい方に注目 第1主成分 得点:どの遺伝子に関わっているか それぞれの遺伝子を表す ランダムデータと比べると…… 得点:At1g56650は… 11.5 発現量が大きい遺伝 子ほど、第一主成分 は「負」になっている 5.6 3.2 第一主成分が「負」の 大きい実験が多い 4.3 5.3 9.4 大 7.7 4.1 9.6 発現量 小 3.5 得点=負荷量×(平均発現量との差) 解釈の纏め ★今回の生物データセット ♦ 第1主成分の得点(遺伝子) • 発現量大:負に大きい • 発現量小:正に大きい ♦ 第1主成分の負荷量(実験) • 負に大きい実験群が多い ♦ 負に大きい実験群では、 • 発現量の大きい遺伝子と発現量の 小さい遺伝子はいつもほぼ決まって いる 第2主成分と第3主成分 X73の正体は…… • AtGE_73:花粉 • • At1g56650の遺伝子 発現データ 大体平均的な発現量 花粉で発現する遺伝 子は少ない 主成分分析の長所と短所 ★長所だけ知ってもあまり役に立たない ♦ 口コミとか ★長所 ♦ ともかく全体を眺める(森を見る)のに便利 ♦ ツールが充実している ♦ みんなを納得させるのにも使える ★短所 ♦ 主成分の意味が分かりにくいときがある ♦ 実はあまり綺麗に分かれてこないことが多い チェックポイント・II 4. 寄与率とは? 5. (主成分)負荷量とは? 6. (主成分)得点とは? 7. 主成分の意味はどうやって判断するの か? 今日の自習のポイント ★中央値を選んだデータセットを提供 ♦ atgenx.txt ★Rでの作業手順(これを辿ってみてください) ♦ 131021pcastep.txt ★そもそもRの使い方…… ♦ Rの使い方.docx ★ランダムデータ ♦ atgenxrandom.txt 次回までの予習 ★次回は「各種クラスタリング」です ♦ 教科書 • クラスター分析、階層的クラスター分析 ♦ インターネット • 自己組織化マップ、ネットワーク解析 • ヒートマップ 本日の課題 ★シロイヌナズナの79実験条件の遺伝子発 現データを手に入れました。 1. 79実験条件の全体を主成分分析で眺 める方法を、「寄与率」「負荷量」「得点」 を使って説明してください。 2. 生物データセットに主成分分析を使っ てみた印象(疑問に思うこと)を書いてく
© Copyright 2025 ExpyDoc