平均値

生物統計学・第4回
比べる準備をする
平均、分散、標準偏差、標準誤差、標準化
2015年10月20日
生命環境科学域 応用生命科学類
尾形 善之
今日の話の流れ
★前回、前々回のおさらい
★代表値
★ばらつき
★標準偏差
★標準誤差
★標準化
統計学基礎の復習です
前回のおさらい
★注目遺伝子の選び方・実用編
♦実演します
• 実習はしませんが、この方法で選びたい人は
挑戦してみて、注目遺伝子を変えてください
♦注目する実験から選ぶ
♦注目する機能から選ぶ
前々回のおさらい
★遺伝子発現量のヒストグラム
♦グラフの読み方
• 横軸が発現量
• 縦軸は各発現量(区間)の遺伝子数
♦注目した遺伝子の発現量が遺伝子全体の
中でどのくらいの位置にあるか?
縦軸:頻度(遺伝子
数)
発現量の大きい順に
遺伝子数を表示
同じ階級の遺伝子は
同じような発現量
横軸:遺伝子発現量
データ区間:0~
10000
階級幅:100
今回のデータセットでの平均値
★遺伝子全体での平均発現量:676.8
★遺伝子ごとの平均発現量
♦79実験でどのくらい発現している遺伝子か
♦平均値? 代表値?
さまざまな代表値があります
★平均値
♦算術平均
♦調和平均
★中央値
★最頻値
算術平均
★次の平均を計算してください。
♦6.1, 5.8, 6.1
6.1+5.8+6.1
♦
=6.0
3
★分数の場合、例えば
3+2
♦
÷
6
2=
5
12
1
2
と
1
3
の平均は?
分母を通分
調和平均
1 1
★ と の調和平均を求めなさい。
2 3
3+2
♦算術平均なら、
6
1+1
♦調和平均では、
2+3
÷2=
=
2
5
5
12
分子を通分
• 遠い昔、こんな間違いをしたことないですか?
他の代表値
★中央値(「真ん中」)
♦データを大きい順に並べたときの真ん中
• 6.1, 5.8, 6.1なら、中央値は……
• 6.1
★最頻値(「一番多い」)
♦一番多く出てくる値
• 6.1, 5.8, 6.1なら、最頻値は……
• やっぱり6.1
チェックポイント・I
1. 次の用語を説明しなさい。
♦
算術平均
♦
調和平均
♦
中央値
♦
最頻値
ばらつき
★なぜばらつきを計算しないといけないの
か?At5g19840の発現量
At1g56650の発現量
(算術平均:134)
14
12
10
8
6
4
2
0
10
60
110
160
210
260
310
360
410
460
実
験
数
10
60
110
160
210
260
310
360
410
460
実
験
数
14
12
10
8
6
4
2
0
(算術平均:137?)
発現量はほぼ同じだが、グラフの様子がずいぶん
発現量
発現量
違う
ばらつきを計算する理由
★平均値だけではデータ全体の様子が分
からない
★ばらつきを計算することで、データが平
均値の周りにどのくらい集まっているか
15
分かる 15
5
0
発現量
10
5
0
10
110
210
310
410
実
験
数
10
10
110
210
310
410
実
験
数
発現量
ばらつきと代表値との関係
★左右対称の山型 正規分布など
♦「パラメトリック」といいます
♦この場合、平均値、中央値、最
頻値はほとんど変わりません
★左右非対称
♦「ノンパラメトリック」
♦平均値、中央値、最頻値がかな
り違う場合があります
ばらつきを表す指標
★分散
♦分散 =
𝒙𝟏 −𝒙 𝟐 + 𝒙𝟐 −𝒙 𝟐 +⋯+ 𝒙𝑵 −𝒙 𝟐
𝑵−𝟏
• 平均との差の二乗和を標本数で割った値
★標準偏差
♦標準偏差 =
★標準誤差
♦標準誤差 =
分散
全数調査:N
標本調査:N-1
• 全数調査:例えば選挙結
果
標準偏差 • 標本調査:例えば出口調
標本調査では、ばらつき
査
を大きく評価する
𝑵
標本調査と全数調査
★選挙で考えてみます
♦標本調査:出口調査
• 選挙の日の午前中に当落を予想する
• まれに、最終結果と違うことがある
• 全数調査よりサンプルが少なく、ばらつきが大き
い
– ばらつきを大きめに評価する
♦全数調査:最終集計結果
• 最終的な投票結果で決定する
• ばらつきをそのまま評価する
実際に計算してみると……
★分散
♦
𝒙𝟏 −𝒙 𝟐 + 𝒙𝟐 −𝒙 𝟐 +⋯+ 𝒙𝑵 −𝒙 𝟐
𝑵−𝟏
♦
𝟏𝟐𝟔−𝟏𝟑𝟕 𝟐 + 𝟏𝟒𝟏−𝟏𝟑𝟕 𝟐 +⋯+ 𝟗𝟒−𝟏𝟑𝟕 𝟐
𝟕𝟗−𝟏
★標準偏差
♦ 101947=319.3
★標準誤差
319.3
♦
=35.9
79
平均と同じサイ
ズ
平均にまあ対応するサイズ
2乗サイズ
= 𝟏𝟎𝟏𝟗𝟒𝟕
チェックポイント・II
2. ばらつきを表す指標は?
3. ばらつきと代表値との関係は?
平均値と標準偏差の関係
★分布の意味
4000
3000
2000
1000
0
0
4000
400
3000
300
2000
200
1000
100
0
0
0
2
4
6
8 10 12
グラフの面積=データ数
0
2
2
4
4
6
6
8 10 12
8 10 12
微分……
平均値と標準偏差の関係
正規分布だとすると……
66.3%
約𝟐 𝟑
1σ
σ:標準偏差
標準偏差
平均値
標準偏差と偏差値
10× 得点 − 平均点
偏差値=50 +
標準偏差
テストごとの成績を
比較するため
例えば、平均点:60点
標準偏差:10点
A君の得点:70点以上なら、
グラフの赤い部分の右にい
ることが分かる(上位𝟏 𝟔)
66.3%
約𝟐 𝟑
1σ
標準偏差
平均点:60点
2σのはなし
𝟏
𝟔
例えば、平均点:60点
標準偏差:10点
Bさんの得点:80点以上な
ら、
グラフの緑の部分の右にい
ることが分かる(上位2.5%)
危険率5%で統計的に
「優秀」といえる
標準偏差2個分 2σ
全体の95.4%
優秀賞!
平均点:60点
3σのはなし
2.5%
例えば、平均点:60点
標準偏差:10点
C君の得点:90点以上なら、
グラフの紫の部分の右にい
ることが分かる(上位0.25%)
危険率0.5%で統計的に
「優秀」といえる
標準偏差3個分 3σ
全体の99.7%
最優秀賞!!
平均点:60点
チェックポイント・I
4. 平均値と標準偏差との関係は?
標準偏差と標準誤差
★どちらも「ばらつき」を表す指標です
★標準偏差(SD)
♦ばらつくことを表す
★標準誤差(SE)
♦ばらつかないことを表す
ばらつく! 標準偏差
★注目するデータ(発現量)が平均値から
どのくらい離れているかを評価する
★平均と標準偏差の関係を利用する
★標準化:𝑧値、ピアソン相関係数
注目する数値
ばらつかない! 標準誤差
★平均値の信頼度を評価する
★標本数が増えると小さくなる
♦標準誤差 =
標準偏差
𝑵
★標準化:𝑡値、𝑡検定
標準誤差
★繰り返し実験がどの程度信頼できる
か?
1回目
2回目
3回目
318.8
113.3
75.4
104.8
50.7
64.3
46.5
115.0
280.2
58.4
68.7
88.7
53.7
45.5
53.7
141.9
326.6
59.9
65.0
95.0
16.5
49.5
41.4
166.1
標準誤差を計算してみると……
★繰り返し3回~10回で比べてみる(累
発現量
平均値
標準偏差
標準誤差
積)
319
-
-
-
280
-
-
-
327
309
25.1
14.5
280
302
25.0
12.5
329
307
24.9
11.1
279
302
25.1
10.2
329
306
25.0
9.4
332
309
24.9
8.8
283
306
24.9
8.3
334
309
25.0
7.9
平
均
値
の
信
頼
度
ア
ッ
プ
標準化、今日は紹介だけ
★なぜ標準化するのか?
♦異なるデータを比較するため
• 平均値もばらつきも単位も異なることがある
★標準化の計算
♦Z化
• これが最も代表的
• ピアソン相関係数に繋がります
♦単位ベクトル化、というものもあります
Z化
★計算方法
発現量−平均値
♦𝒁値=
標準偏差
• なんだか偏差値に似ていますね
10× 得点−平均点
• 偏差値=50 +
標準偏差
★使い道
♦データ全体がパラメトリックのとき
• ノンパラメトリックだと正確に評価できない
チェックポイント・II
5. 標準偏差と標準誤差の使い分けは?
6. 代表的な標準化の計算は?
本日の実習
★遺伝子の発現量ヒストグラムの作成
♦遺伝子発現データをエクセルで開く。
♦注目遺伝子の79実験でのヒストグラムを作る。
★分散・標準偏差の計算
♦注目遺伝子の発現量について計算する。
♦注目遺伝子と平均発現量の近い遺伝子の発
現量について計算し、ヒストグラムを作る。
本日の課題
★注目する遺伝子と平均発現量の近い遺
伝子の2つの遺伝子について、分散や標
準偏差の違いについて考察しなさい。
★代表値、ばらつき、標準偏差、標準誤差と
に対する疑問点や印象を書いてください。