生物統計学・第1回 統計解析を始める前に

生物統計学・第4回
比べる準備をする(1)
平均、分散
2014年10月21日
生命環境科学域 応用生命科学類
尾形 善之
前回のおさらい
★遺伝子発現量のヒストグラム
♦ グラフの読み方
• 横軸が発現量
• 縦軸は各発現量(区間)の遺伝子数
♦ 注目した遺伝子の発現量が遺伝子全体の中でど
のくらいの位置にあるか?
縦軸:頻度
発現量の大きい順に
遺伝子数を表示
同じ階級の遺伝子は
同じような発現量
横軸:遺伝子発現量
データ区間:0~
10000
階級幅:100
今回のデータセットでの平均値
★遺伝子全体での平均発現量:676.8
★遺伝子ごとの平均発現量
♦ 79実験でどのくらい発現している遺伝子か
♦ 平均値? 代表値?
さまざまな代表値があります
★平均値
♦ 算術平均
♦ 調和平均
★中央値
★最頻値
算術平均
★次の平均を計算してください。
♦ 6.1, 5.8, 6.1
6.1+5.8+6.1
♦
=6.0
3
調和平均
1 1
★ と の平均を求めなさい。
2 3
3+2
5
♦ 算術平均なら、
÷2=
6
12
1+1
2
♦ 調和平均では、
=
2+3
5
• 昔、こんな間違いをしたことないですか?
• 分数だと、算術平均よりちょっと簡単です
他の代表値
★中央値(「真ん中」)
♦ データを大きい順に並べたときの真ん中
• 6.1, 5.8, 6.1なら、中央値は……
• 6.1
★最頻値(「一番多い」)
♦ 一番多く出てくる値
• 6.1, 5.8, 6.1なら、最頻値は……
• やっぱり6.1
チェックポイント・I
1. 次の用語を説明しなさい。
♦
算術平均
♦
調和平均
♦
中央値
♦
最頻値
今回のデータセットでの平均値
★遺伝子全体での平均発現量:676.8
★遺伝子ごとの平均発現量
♦ 79実験でどのくらい発現している遺伝子か
♦ 発現量が似ている遺伝子は、発現量の分布も似
ているか?
今日は「ばらつき」の話をします
★なぜばらつきを計算しないといけないの
か?At5g19840の発現量
At1g56650の発現量
(算術平均:134)
発現量
14
12
10
8
6
4
2
0
10
60
110
160
210
260
310
360
410
460
実
験
数
10
60
110
160
210
260
310
360
410
460
実
験
数
14
12
10
8
6
4
2
0
(算術平均:137?)
発現量
ばらつきを計算する理由
★平均値だけではデータ全体の様子が分
からない
★ばらつきを計算することで、データが平
均値の周りにどのくらい集まっているか
15
15
分かる
5
0
発現量
10
5
0
10
110
210
310
410
実
験
数
10
10
110
210
310
410
実
験
数
発現量
ばらつきを表す指標(次回詳しく話しま
す)
★分散
♦ 分散 =
𝒙𝟏 −𝒙 𝟐 + 𝒙𝟐 −𝒙 𝟐 +⋯+ 𝒙𝑵 −𝒙 𝟐
𝑵−𝟏
• 平均との差の二乗和を標本数で割った値
★標準偏差
♦ 標準偏差 =
分散
★標準誤差
♦ 標準誤差 =
標準偏差
𝑵
標本調査:N-1
全数調査:N
• 標本調査とは…例えば出口調査
• 全数調査とは…例えば選挙結果
• 標本調査は、ばらつきが大きい
チェックポイント・II
2. ばらつきを表す指標は?
本日の実習
★遺伝子の発現量ヒストグラムの作成
♦ 遺伝子発現データをエクセルで開く。
♦ 全遺伝子の平均発現量を計算する。
♦ 注目遺伝子の79実験でのヒストグラムを作る。
★分散の計算
♦ 注目遺伝子の発現量の分散を計算する。
♦ 注目遺伝子と平均発現量の近い遺伝子の発現量の
ヒストグラムを作り、分散を計算する。
本日の課題
★注目する遺伝子および平均発現量の近
い遺伝子について、分散の違いについて
考察しなさい。
★平均とばらつきに対する疑問点や印象を
書いてください。
次回までの予習
★次回は「比べる準備をする」の2回目で
す
♦ 標準偏差
♦ 偏差値
♦ 標準誤差
♦ 標準化