生物統計学・第4回 比べる準備をする(1) 平均、分散 2014年10月21日 生命環境科学域 応用生命科学類 尾形 善之 前回のおさらい ★遺伝子発現量のヒストグラム ♦ グラフの読み方 • 横軸が発現量 • 縦軸は各発現量(区間)の遺伝子数 ♦ 注目した遺伝子の発現量が遺伝子全体の中でど のくらいの位置にあるか? 縦軸:頻度 発現量の大きい順に 遺伝子数を表示 同じ階級の遺伝子は 同じような発現量 横軸:遺伝子発現量 データ区間:0~ 10000 階級幅:100 今回のデータセットでの平均値 ★遺伝子全体での平均発現量:676.8 ★遺伝子ごとの平均発現量 ♦ 79実験でどのくらい発現している遺伝子か ♦ 平均値? 代表値? さまざまな代表値があります ★平均値 ♦ 算術平均 ♦ 調和平均 ★中央値 ★最頻値 算術平均 ★次の平均を計算してください。 ♦ 6.1, 5.8, 6.1 6.1+5.8+6.1 ♦ =6.0 3 調和平均 1 1 ★ と の平均を求めなさい。 2 3 3+2 5 ♦ 算術平均なら、 ÷2= 6 12 1+1 2 ♦ 調和平均では、 = 2+3 5 • 昔、こんな間違いをしたことないですか? • 分数だと、算術平均よりちょっと簡単です 他の代表値 ★中央値(「真ん中」) ♦ データを大きい順に並べたときの真ん中 • 6.1, 5.8, 6.1なら、中央値は…… • 6.1 ★最頻値(「一番多い」) ♦ 一番多く出てくる値 • 6.1, 5.8, 6.1なら、最頻値は…… • やっぱり6.1 チェックポイント・I 1. 次の用語を説明しなさい。 ♦ 算術平均 ♦ 調和平均 ♦ 中央値 ♦ 最頻値 今回のデータセットでの平均値 ★遺伝子全体での平均発現量:676.8 ★遺伝子ごとの平均発現量 ♦ 79実験でどのくらい発現している遺伝子か ♦ 発現量が似ている遺伝子は、発現量の分布も似 ているか? 今日は「ばらつき」の話をします ★なぜばらつきを計算しないといけないの か?At5g19840の発現量 At1g56650の発現量 (算術平均:134) 発現量 14 12 10 8 6 4 2 0 10 60 110 160 210 260 310 360 410 460 実 験 数 10 60 110 160 210 260 310 360 410 460 実 験 数 14 12 10 8 6 4 2 0 (算術平均:137?) 発現量 ばらつきを計算する理由 ★平均値だけではデータ全体の様子が分 からない ★ばらつきを計算することで、データが平 均値の周りにどのくらい集まっているか 15 15 分かる 5 0 発現量 10 5 0 10 110 210 310 410 実 験 数 10 10 110 210 310 410 実 験 数 発現量 ばらつきを表す指標(次回詳しく話しま す) ★分散 ♦ 分散 = 𝒙𝟏 −𝒙 𝟐 + 𝒙𝟐 −𝒙 𝟐 +⋯+ 𝒙𝑵 −𝒙 𝟐 𝑵−𝟏 • 平均との差の二乗和を標本数で割った値 ★標準偏差 ♦ 標準偏差 = 分散 ★標準誤差 ♦ 標準誤差 = 標準偏差 𝑵 標本調査:N-1 全数調査:N • 標本調査とは…例えば出口調査 • 全数調査とは…例えば選挙結果 • 標本調査は、ばらつきが大きい チェックポイント・II 2. ばらつきを表す指標は? 本日の実習 ★遺伝子の発現量ヒストグラムの作成 ♦ 遺伝子発現データをエクセルで開く。 ♦ 全遺伝子の平均発現量を計算する。 ♦ 注目遺伝子の79実験でのヒストグラムを作る。 ★分散の計算 ♦ 注目遺伝子の発現量の分散を計算する。 ♦ 注目遺伝子と平均発現量の近い遺伝子の発現量の ヒストグラムを作り、分散を計算する。 本日の課題 ★注目する遺伝子および平均発現量の近 い遺伝子について、分散の違いについて 考察しなさい。 ★平均とばらつきに対する疑問点や印象を 書いてください。 次回までの予習 ★次回は「比べる準備をする」の2回目で す ♦ 標準偏差 ♦ 偏差値 ♦ 標準誤差 ♦ 標準化
© Copyright 2024 ExpyDoc