生物統計学・第1回 統計解析を始める前に

生物統計学・第3回
全体を眺める(2)
主成分分析
2013年10月21日
生命環境科学域 応用生命科学類
尾形 善之
まずは先週のリマインド
★全体を眺めるための指標
♦ 代表値
• 算術平均、中央値、最頻値
• 調和平均
♦ いろいろなグラフ
• 棒、折れ線
• ヒートマップ
いよいよ本格的な多変量解析
★代表格:主成分分析
♦ よく「PCA」と呼ばれます
• 間違って「PCA解析」とも呼ばれます
• Principal Component Analysis
★「主成分」って?
♦ データ全体の特徴を表す指標です
♦ 多次元データ → 2次元グラフ
• 四次元グラフ……
• 79次元グラフ……
教科書では…
地上部
種
目で見る主成分分析の原理
実験2
★主成分(Z)
♦ 実験条件の数だけ引ける
♦ 優先順位がつく
★原理(ひとこと)
♦ 軸を変えている!
実験1
• できるだけばらしている!
チェックポイント・I
1. 主成分分析とは?
2. 主成分とは?
3. 主成分分析の原理?
生物データセット
★シロイヌナズナのマイクロアレイデータ
♦ 79実験条件
• 組織、発達段階
♦ 3反復
♦ 合計237実験
生物データセット
79実験条件
遺
伝
子
(ちょっと改良)
実際の主成分分析
★Rを使います
★Rって?
♦ いろいろな統計解析ができるツールです
♦ 特に生物統計学向きです
♦ Rの回で詳しく話します
♦ 自習用に今日の作業手順のファイルを置いてお
きます
• http://www.plant.osakafu-u.ac.jp/plantbio/
• 「大阪府立大学 植物バイオサイエンス」で検索
主成分分析で使う3つのグラフ
★寄与率
★負荷量(主成分負荷量)
★得点(主成分得点)
寄与率:どのくらい貢献しているか
よくばらつきを表してい
る
これなら第1主成分だけ見れ
ばいいんじゃないか、というレ
ベル
実験2
棒グラフを足していって、
全体の95%までは見ていい
よ、
分散(ばらつ という暗黙の了解
き)
実験1
負荷量:どの実験が効いているか
第2主成分
それぞれの実験を表
す
ひとつだけ離れている
…
絶対値が大きい方に注目
第1主成分
得点:どの遺伝子に関わっているか
それぞれの遺伝子を表す
ランダムデータと比べると……
得点:At1g56650は…
11.5
発現量が大きい遺伝
子ほど、第一主成分
は「負」になっている
5.6
3.2
第一主成分が「負」の
大きい実験が多い
4.3
5.3
9.4
大
7.7
4.1
9.6
発現量
小
3.5
得点=負荷量×(平均発現量との差)
解釈の纏め
★今回の生物データセット
♦ 第1主成分の得点(遺伝子)
• 発現量大:負に大きい
• 発現量小:正に大きい
♦ 第1主成分の負荷量(実験)
• 負に大きい実験群が多い
♦ 負に大きい実験群では、
• 発現量の大きい遺伝子と発現量の
小さい遺伝子はいつもほぼ決まって
いる
第2主成分と第3主成分
X73の正体は……
•
AtGE_73:花粉
•
•
At1g56650の遺伝子
発現データ
大体平均的な発現量
花粉で発現する遺伝
子は少ない
主成分分析の長所と短所
★長所だけ知ってもあまり役に立たない
♦ 口コミとか
★長所
♦ ともかく全体を眺める(森を見る)のに便利
♦ ツールが充実している
♦ みんなを納得させるのにも使える
★短所
♦ 主成分の意味が分かりにくいときがある
♦ 実はあまり綺麗に分かれてこないことが多い
チェックポイント・II
4. 寄与率とは?
5. (主成分)負荷量とは?
6. (主成分)得点とは?
7. 主成分の意味はどうやって判断するの
か?
今日の自習のポイント
★中央値を選んだデータセットを提供
♦ atgenx.txt
★Rでの作業手順(これを辿ってみてください)
♦ 131021pcastep.txt
★そもそもRの使い方……
♦ Rの使い方.docx
★ランダムデータ
♦ atgenxrandom.txt
次回までの予習
★次回は「各種クラスタリング」です
♦ 教科書
• クラスター分析、階層的クラスター分析
♦ インターネット
• 自己組織化マップ、ネットワーク解析
• ヒートマップ
本日の課題
★シロイヌナズナの79実験条件の遺伝子発
現データを手に入れました。
1. 79実験条件の全体を主成分分析で眺
める方法を、「寄与率」「負荷量」「得点」
を使って説明してください。
2. 生物データセットに主成分分析を使っ
てみた印象(疑問に思うこと)を書いてく