生物統計学・第1回 統計解析を始める前に

生物統計学・第5回
比べる準備をする(2)
標準偏差、標準誤差、標準化
2014年10月28日
生命環境科学域 応用生命科学類
尾形 善之
前回のおさらい:代表値
★次のヒストグラムでは、どの代表値?
♦ 平均値
♦ 中央値
♦ 最頻値
前回のおさらい:代表値
★左右対称の山型
正規分布
♦ 「パラメトリック」といいます
♦ この場合、平均値、中央値、最頻値
はほとんど変わりません
★左右非対称
♦ 「ノンパラメトリック」
♦ 平均値、中央値、最頻値がかなり違
います
ばらつきを表す指標(次回詳しく話しま
す)
★分散
♦ 分散 =
𝒙𝟏 −𝒙 𝟐 + 𝒙𝟐 −𝒙 𝟐 +⋯+ 𝒙𝑵 −𝒙 𝟐
𝑵−𝟏
• 平均との差の二乗和を標本数で割った値
★標準偏差
♦ 標準偏差 =
分散
★標準誤差
♦ 標準誤差 =
標準偏差
𝑵
標本調査:N-1
全数調査:N
標本調査と全数調査
★選挙で考えてみます
♦ 標本調査:出口調査
• 選挙の日の午前中に当落を予想する
• まれに、最終結果と違うことがある
• 全数調査よりサンプルが少なく、ばらつきが大きい
– ばらつきを大きめに評価する
♦ 全数調査:最終集計結果
• 最終的な投票結果で決定する
• ばらつきをそのまま評価する
平均値と標準偏差の関係
★分布の意味
4000
3000
2000
1000
0
0
4000
400
3000
300
2000
200
1000
100
0
0
0
2
4
6
8 10 12
グラフの面積=データ数
0
2
2
4
4
6
6
8 10 12
8 10 12
微分……
平均値と標準偏差の関係
正規分布だとすると……
66.3%
約𝟐 𝟑
1σ
σ:標準偏差
標準偏差
平均値
標準偏差と偏差値
10× 得点 − 平均点
偏差値=50 +
標準偏差
テストごとの成績を
比較するため
例えば、平均点:60点
標準偏差:10点
A君の得点:70点以上なら、
グラフの赤い部分の右にい
ることが分かる(上位𝟏 𝟔)
66.3%
約𝟐 𝟑
1σ
標準偏差
平均点:60点
2σのはなし
𝟏
𝟔
例えば、平均点:60点
標準偏差:10点
Bさんの得点:80点以上なら、
グラフの緑の部分の右にい
ることが分かる(上位2.5%)
危険率5%で統計的に
「優秀」といえる
標準偏差2個分 2σ
全体の95.4%
優秀賞!
平均点:60点
3σのはなし
2.5%
例えば、平均点:60点
標準偏差:10点
C君の得点:90点以上なら、
グラフの紫の部分の右にい
ることが分かる(上位0.25%)
危険率0.5%で統計的に
「優秀」といえる
標準偏差3個分 3σ
全体の99.7%
最優秀賞!!
平均点:60点
チェックポイント・I
1. 平均値と標準偏差との関係は?
標準偏差と標準誤差
★どちらも「ばらつき」を表す指標です
★標準偏差(SD)
♦ ばらつくことを表す
★標準誤差(SE)
♦ ばらつかないことを表す
ばらつく! 標準偏差
★右図は左図に比べてばらつきが大きい
At5g19840の発現量
(算術平均:134)
発現量
14
12
10
8
6
4
2
0
10
60
110
160
210
260
310
360
410
460
実
験
数
10
60
110
160
210
260
310
360
410
460
実
験
数
14
12
10
8
6
4
2
0
At1g56650の発現量
(算術平均:137?)
比べるのが大
変
発現量
ばらつかない! 標準誤差
★繰り返し実験がどの程度信頼できる
か?
1回目
2回目
3回目
318.8
113.3
75.4
104.8
50.7
64.3
46.5
115.0
280.2
58.4
68.7
88.7
53.7
45.5
53.7
141.9
326.6
59.9
65.0
95.0
16.5
49.5
41.4
166.1
標準偏差と標準誤差の使い分
け
★標準偏差
♦ 「ばらつく」ことを表す
♦ 標準化:𝑧値
• 正規分布
• ピアソン相関係数
★標準誤差
♦ 「ばらつかない」ことを表す
♦ 標準化:𝑡値
• 𝑡分布
•
•
測定値のばらつき
平均値との関係を利
用
•
•
測定値の精度
元々のばらつきの評
価
実際に計算してみると……
★分散
♦
𝒙𝟏 −𝒙 𝟐 + 𝒙𝟐 −𝒙 𝟐 +⋯+ 𝒙𝑵 −𝒙 𝟐
𝑵−𝟏
♦
𝟏𝟐𝟔−𝟏𝟑𝟕 𝟐 + 𝟏𝟒𝟏−𝟏𝟑𝟕 𝟐 +⋯+ 𝟗𝟒−𝟏𝟑𝟕 𝟐
𝟕𝟗−𝟏
2乗サイズ
= 𝟏𝟎𝟏𝟗𝟒𝟕
★標準偏差
♦ 101947=319.3
★標準誤差
319.3
♦
=35.9
79
平均と同じサイ
ズ
平均にまあ対応するサイズ
標準誤差を計算してみると……
★繰り返し3回~10回で比べてみる(累
発現量
平均値
標準偏差
標準誤差
積)
319
-
-
-
280
-
-
-
327
309
25.1
14.5
280
302
25.0
12.5
329
307
24.9
11.1
279
302
25.1
10.2
329
306
25.0
9.4
332
309
24.9
8.8
283
306
24.9
8.3
334
309
25.0
7.9
平
均
値
の
信
頼
度
ア
ッ
プ
標準化、今日は紹介だけ
★なぜ標準化するのか?
♦ 異なるデータを比較するため
• 平均値もばらつきも単位も異なることがある
★標準化の計算
♦ Z化
• これが最も代表的
• ピアソン相関係数に繋がります
♦ 単位ベクトル化、というものもあります
Z化、今日は簡単に
★計算方法
発現量−平均値
♦ 𝒁値=
標準偏差
• なんだか偏差値に似ていますね
10× 得点−平均点
• 偏差値=50 +
標準偏差
★使い道
正規分布
♦ データ全体がパラメトリックのとき
• ノンパラメトリックだと正確に評価できない
チェックポイント・II
2. 標準偏差と標準誤差の使い分けは?
3. 代表的な標準化の計算は?
本日の実習
★中央値と最頻値の計算
♦ 平均値の計算を参考にする
• 「=average()」の代わりに、「=median()」「=mode=()」を使う
★標準偏差と標準誤差の計算
♦ 分散の計算を参考にする
• 「=varp()」の代わりに、「=stdevp()」「=stdevp()/sqrt(79)」を
使う
– 標準誤差のワークシート関数はない
本日の課題
★注目する遺伝子について
♦ 中央値と最頻値を求め、考察しなさい。
♦ 標準偏差と標準誤差を求めなさい。
♦ 平均+標準偏差×3(3σ)よりも大きい値があるか
確認しなさい。
★標準偏差と標準誤差に対する疑問点や
印象を書いてください。
次回までの予習
★次回からいよいよ「主成分分析」です
♦ まずはRの使い方を学びます