富山大学知能情報工学科 「統計学」第3回 第2章 標本データの記述(2) 高 尚策 (コウ ショウサク) 准教授 Email: [email protected] 前回の復習 • 母集団と標本 • データの分類 – 度数分布表 – ヒストグラム • 算術的記述 – 代表値(average)=位置(location)の測度 平均値(mean) 中央値(median) 最頻値(mode) 平均値(算術平均)・中央値・最頻値の特徴 今日の内容 • 算術的記述 – 散布度(dispersion)=変動(variation)の測度 分散(variance),標準偏差(standard deviation) 範囲(range) 四分位範囲(interquartile range) • 実践 – エクセルを用いた各種統計量(平均値、最大値、 最小値、範囲、分散,標準偏差、最頻値、中央値、 四分位範囲)の求め方 – 分類されたデータからの分散の計算 なぜ散布度を考えるのか? • 分布の中心だけでなく,そのまわりにどれぐら いの変動があるのかを考慮しなければならな いことが多い. – リスクの評価(「平均で1万円もうかる」だけでは 困る.変動の大きさを知りたい) – テスト得点の比較(平均が50点の2つのテスト. 70点の価値は分布の広がりによる) • 人はしばしば変動を無視してしまう(例:血液 型性格診断) 血液型別の性格特性 何 ら か の 性 格 特 性 の 程 度 平均値(仮想)の位置を図示 AB A B O 血液型別の性格特性 何 ら か の 性 格 特 性 の 程 度 平均値の位置に加え, 個人差を図示 AB A B O 血液型による差よりも,個人差がずっと大きいと, 性格診断には役立たない. 朝日新聞2012年12月5日 「温度差 各党も党内も」 朝日新聞2012年12月5日 「温度差 各党も党内も」 分散 • 平均値とペアで用いる. • 平均からの偏差平方和(sum of square deviation)を,測定値の数(n)あるいは測定 値の数から1を引いた数(n-1)で割る n 1 2 s2 ( X X ) i n 1 i 1 1 2 2 2 {( X 1 X ) ( X 2 X ) ( X n X ) } n 1 • 偏差平方和を測定値の数(n)で割った分散 は,「偏差の2乗の平均」である. 平均 1 n 2 X i X n i 1 平方 偏差 和 式は言葉で読むとよい.次のスライドも参照. • 分散は,平均値のまわりでの,測定値のちら ばりを表す. – 直感的には,ヒストグラムの横幅 – 例1:データ {4, 5, 6} 1 2 2 2 2 4 5 5 5 6 5 3 3 – 例2:データ {0, 5, 10} 1 50 2 2 2 0 5 5 5 10 5 3 3 • 偏差平方和を測定値の数(n)で割った分散 は,次のように式変形できる. 1 n 1 n 2 2 2 X X X X i i n i 1 n i 1 「分散は,2乗の平均-平均の2乗」のように, 式は言葉で読むとよい. なぜ平方(2乗)和なのか? • 平均からの偏差(deviation)を単純に加算す ると,ゼロになってしまう.(章末問題17) n (X i 1 i X) 0 • 偏差の絶対値を取って加算平均をしてもよい が,絶対値は扱いにくいことがある. n | X i 1 i X | 平均偏差(mean deviation) なぜn-1で割るのか? • 測定値の数(n)で割るのは,「偏差平方の平均」 なのでわかりやすい. – 各測定値が,平均の周りに,「平均して」どれくらい広 がっているかを表す • しかし,母集団の分散を推定するという立場では, n-1で割る方が望ましい性質を持つ(テキスト第6 章3節「不偏推定値」). • テキストでは「標本分散」(sample variance)と呼 んでいるが,これは n で割った方を指すことも. 誤解の心配がない表現は「不偏分散」(unbiased variance) 標準偏差 • 分散の,正の平方根 • 標準偏差の単位はもとの測定値の単位と同 じ – 「平均175センチ」という表現はOK – 「分散25センチ」はだめ – 「標準偏差5センチ」はOK 標準偏差と分布の広がり • 正規分布(第5章)をしている母集団からの, 大きな標本では, – 「平均±1標準偏差」の範囲に全測定値のおよそ 68%(偏差値40~60) – 「平均±2標準偏差」の範囲に全測定値のおよそ 95%(偏差値30~70) Chart Title 約68% 0.45 0.4 0.35 約95% 0.3 0.25 Series1 0.2 0.15 0.1 0.05 0 -4 -3 -2 -1 0 1 2 3 4 範囲 • 最大の測定値と最小の測定値の差 • 他の測定値と著しく異なる値であるはずれ値 (outlier)の影響を受けやすい. 四分位数 • 四分位数(quartile):測定値を大きさの順に並べ, 等しく4分割するときの分割点となる数 • 下から順に,第1四分位数,第2四分位数,第3 四分位数と呼ぶ. • 第2四分位数は中央値のこと. • 分割点が2つの測定値の間に落ちるときは,そ れら2つの測定値の中点をとる. • データをヒストグラムに分類した後では,ヒストグ ラムの全面積を4分割する点(例題1,例題2) 四分位数の求め方は複数ある • 「測定値を等しく4分割する点」とはどこか、の 解釈の違いにより,四分位数の計算方法は いくつかある. • この違いにより,四分位数の値も異なったも のになる. 比較的簡単な四分位数の求め方 【測定値の数が偶数のとき】 – 測定値を大きさの順に並べ,中央値の位置で半分に 分ける. – 小さい方の測定値グループでの中央値が第1四分位 数,大きい方のグループでの中央値が第3四分位数 となる. 【測定値の数が奇数のとき】 – 両方のグループに中央値を含めて,あとは偶数の場 合と同様に求める. (どちらのグループにも中央値を含めない方法もあ る) エクセルのQuartile関数 測定値 n 個,第1四分位数 Q1 は k 番目の測定値とする 1 k (n 1) 1 4 0 1 n-1 n 「1 と n の間を 1:3 に分割する点」 =「0 と n-1 を 1:3 に分割する「数」に,1を加えた所」 • k が整数でない時,k の整数部分を q として (小数部分はk-q), q 番目の測定値 Dq と q+1 番目の測定値 Dq+1 の間に四分位数があると 考える. • 補間により四分位数を求める. Q1 Dq (k q)(Dq1 Dq ) 測定値 n 個,第1四分位数 Q1 は k 番目の測定値とする (k q)(Dq1 Dq ) Dq Dq+1 Q1 Dq (k q)(Dq1 Dq ) 例題:第1四分位数 • 0, 1, 4, 5, 6, 8, 9 という,7つの測定値の第1四分 位数 Q1 は? 手順1:第1四分位数となる k 番目の測定値 1 1 k (n 1) 1 (7 1) 1 2.5 4 4 手順2:2番目の測定値は1,次は4. Q1 Dq (k q )( Dq 1 Dq ) 1 (2.5 2)(4 1) 2.5 参考:Excel 関数に対する変更 • Excel 2010 からは,QUARTILE 関数のかわり に,QUARTIEL.INC あるいは QUARTILE.EXC 関 数を用いる. – QUARTILE 関数もまだ使える – QUARTILE 関数と QUARTILE.INC 関数は,戻り値を 0とすると最小値,4とすると最大値を返す. QUARTILE.EXC 関数ではエラーになる. 四分位範囲 • 中央値とペアで用いる.(cf. 平均値と分散) • 第3四分位数から第1四分位数を引いた値 • 四分位範囲を2で割った数値を,四分位偏差 (quartile deviation)と呼ぶことがある. ヒストグラムでの四分位数 テキスト例題1での第1四分位数を例に 第1四分位数 17 19 人数(度数f) 20 15 11 12 12 10 5 6 7 2 1 2 1 9 0 0 1 0 11 14 17 20 23 26 29 32 35 38 41 44 47 50 53 週あたり労働時間 測定値1あたり,面積1の正方形を積み上げてヒストグラムを作 ると考える. 第1四分位数 = 左側の面積が25となる点 24.5~27.5時間という階級までで面積19(あと6) 次の階級の面積は 11 だから,ここを縦に11分割して6つ分 階級の幅は3時間だから,境界値 27.5 時間に3 * (6/11) を加え れば,これが第1四分位数 ヒストグラムでの四分位数 第1四分位数=29.1 6 Q1 27.5 3 29.1 11 11:6 27.5時間 階級幅3時間 スコアの変換(章末問題21) • 測定値全体に定数 c を加える – 平均も c を加えた値になる – 分散,標準偏差は変化しない(山を平行移動した だけなら,広がりは変化しない) • 測定値を a 倍する – 平均は a 倍される – 分散は a2 倍される – 標準偏差は a 倍される スコアの変換(+ c)と平均値 n 1 n 1 n ( X i c ) ( X i c ) n i 1 n i 1 i 1 n 1 1 X i nc n i 1 n X c 上のようなシグマを使った計算がわからなかったら, 要素を具体的に書き並べてみること! スコアの変換(a倍)と平均値 n n 1 1 aX i a X i n i 1 n i 1 aX スコアの変換(+ c)と分散 1 2 ( X i c) ( X c) n 1 i 1 n 1 n 2 (Xi X ) n 1 i 1 平均に c が加えられていることに注意 スコアの変換(a倍)と分散 n 1 n 1 2 2 a( X i X ) (aXi aX ) n 1 i 1 n 1 i 1 n 1 2 2 a (Xi X ) n 1 i 1 a2 s2 平均が a 倍されていることに注意 1. エクセルを用いた各種統計量の求め方 2. 分類されたデータからの分散の計算 実践1:エクセルを用いた各種統計量の求め方 例題2のデータで,エクセルを用いて,平均値、最大値、最小値、範 囲、分散,標準偏差、最頻値、中央値、四分位範囲を求める. ① 元のデータから平均を求める方法は,AVERAGE 関数を用いる. ② 最大値はMAX関数,最小値はMIN関数を用いる. 実践1:エクセルを用いた各種統計量の求め方 ③ 範囲を求める関数は存在しない.最大値から最小値を引いて求める. ④ 分散を求めるにはVAR関数を用いる.この関数はテキストp.20に説明さ れている標本分散(sample variance)を計算する. 2 平均からの偏差平方和 ( X i X ) を,n-1でなくnで割った分散を求めるに は,VARP関数を使う. 実践1:エクセルを用いた各種統計量の求め方 ⑤ 標準偏差を求めるにはSTDV関数を用いる.この関数はテキストp.20に 説明されている標本分散(sample variance)の,正の平方根である.VARP関 数で求めた分散の正の平方根として標準偏差を求めるならば,STDEVP関数 を用いる. ⑥ 最頻値を求める関数はMODEである. 実践1:エクセルを用いた各種統計量の求め方 ⑦ 中央値はMEDIAN関数で求める.この関数は,測定値を大きさの順に並 べ,その中央にある値を返す. ⑧ 四分位範囲を求めるために,第1四分位数と第3四分位数を求める.こ れにはQUARTILE関数を用いる.この関数は,データが入力されたセル範囲 の指定にくわえ,「戻り値」という値を指定する.0は最小値,1は第1四分位 数,2は第2四分位数(中央値),3は第3四分位数,4は最大値を返す.第3 四分位数と第1四分位数を求めたら,引き算して四分位範囲を求める. 戻り値 実践2:分類されたデータからの分散の計算 章末問題28のデータを用いて,度数分布表に分類されたデータから分散 の計算を行う方法を説明します. Step 1 総度数を記録しておきます.数値を入力してもよいです が,下図では度数分布表での各階級の度数を合計しています. 実践2:分類されたデータからの分散の計算 章末問題28のデータを用いて,度数分布表に分類されたデータから分散 の計算を行う方法を説明します. Step 2 分散の計算には平均からの偏差平方和が必要です.その ため,最初に平均を計算しておきます.分類されたデータでは, 各階級に属する測定値は,すべてその階級値をとったものと考 えます.たとえば,最初の階級では,血圧が95の人が2人いたと 考えます.そこで,階級値と度数の積を計算します. 実践2:分類されたデータからの分散の計算 章末問題28のデータを用いて,度数分布表に分類されたデータから分散 の計算を行う方法を説明します. Step 3 階級値と度数の積をすべての階級にわたって合計します. 実践2:分類されたデータからの分散の計算 章末問題28のデータを用いて,度数分布表に分類されたデータから分散 の計算を行う方法を説明します. Step 4 いま求めた合計値を,総度数で割ります.これが,分類 されたデータから求めた平均値になります. 実践2:分類されたデータからの分散の計算 章末問題28のデータを用いて,度数分布表に分類されたデータから分散 の計算を行う方法を説明します. Step 5 各階級での,平均からの偏差の2乗を求めます.測定値 は階級値に置きかえられていますので,階級値から平均値を引 いて2乗します.その値に階級の度数をかけます.そして偏差 平方和を求めます. 実践2:分類されたデータからの分散の計算 章末問題28のデータを用いて,度数分布表に分類されたデータから分散 の計算を行う方法を説明します. Step 6 各差平方和を,総度数から1を引いた数(ここでは49) で割ると,分散が求められます.整数で測定されたデータでは, 統計量(平均,分散,標準偏差など)は小数点以下第1位まで求 めてください.この問題では287.0です. 演習課題 (2)章末問題29のデータを用いて,度数分布表に分類されたデー タから分散の計算を行おう。 レポート内容: 課題(1)の答えを解答用紙(1)に書いてください。 課題(2)の答えを解答用紙(2)に書いてください。 名前と学籍番号をご記入のうえ、解答用紙(A4)を提出する。 提出先:工学部電子情報実験研究棟5階 締め切り時間: NO.5506室のドアのポストに入れてください 再来週月曜日(5月11日) 午後5時まで 尚、講義用パワーポイントは http://www3.u-toyama.ac.jp/tanglab/content51/content51.htmlからダウンロードできる。
© Copyright 2024 ExpyDoc