Advanced Data Analysis 先進的データ分析法 2015(2) 平成27年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之 38 1 階級 度数 2 57 データ群 41 20 25 32 Histogram 0-9 10-19 20-29 30-39 40-49 50-59 2 0 2 1 1 1 度数分布表 練習 再掲 38 1 階級 度数 2 57 データ群 41 20 25 32 Histogram 0-9 10-19 20-29 30-39 40-49 50-59 2 0 2 1 1 1 度数分布表 • データ群 {x1 , x2 , x3 ,..., xn } • データ全体としての性質を数値化すると – – – – – – – 平均(データの代表値, mean) 分散(データの散らばり, variance) 標準偏差(データの散らばり, standard deviation) 中央値(データの代表値, median) 最頻値(データの代表値, mode) 最大値(maximun)&最小値(minimum) 範囲(データの散らばり, range) etc. 基本概念の再考察 1. 平均(算術平均)の性質 2. 平均偏差の性質 3. 分散の性質 H. Kameda ( Tokyo University of Technology ) 6 平均の性質 定義: 平均=(データの総量)÷(データの個数) m=T/N m: 平均(mean) T: データの総量 T = x1 + x 2 + … + x N N: データの個数 H. Kameda ( Tokyo University of Technology ) 7 平均の性質(続き) 定義: 平均=(データの総量)÷(データの個数) m=T/N m = ( x1 + x2 + … + xN )÷N m = ( x1 + x 2 + … + xN ) / N m = (Σxi ) / N 書き方はいろいろですが、どれも同じ! 慣れてください。 H. Kameda ( Tokyo University of Technology ) 8 例(あるいはProblem) • わかりきった話ですが… 実際に計算し考えることは大切です。 常に練習(計算・思考)をしましょう。 H. Kameda ( Tokyo University of Technology ) 9 練習問題 • Problem 次のようなデータが得られた。 平均mを求めてみよう。 データ: 16, 45, 39, 53, 67 H. Kameda ( Tokyo University of Technology ) 10 解答例 • Answer: 平均m = ( 16 + 45 + 39 + 53 + 67 ) / 5 = 220 / 5 = 44 図形的考察: 10 20 30 40 50 H. Kameda ( Tokyo University of Technology ) 60 70 11 考察(続き) xi 10 20 30 40 50 60 70 xi - m A = (x1 – m) + ( x2 – m) + … + (x5 – m) を計算してみると… H. Kameda ( Tokyo University of Technology ) 12 A = (x1 – m) + ( x2 – m) + … + (x5 – m) = ( x1 + x2 + … + xN ) – N×m = ( x1 + x2 + … + xN ) – N×( x1 + x2 + … + xN ) / N =0 これは平均の性質の1つ! H. Kameda ( Tokyo University of Technology ) 13 得られた知見 定理: 関数f(a) = (x1 – a) + ( x2 – a) + … + (xN – a) に対して、f(a) = 0 となるのは、a = m のとき である。 H. Kameda ( Tokyo University of Technology ) 14 考えてみよう! Let’s challenge! Problem: 関数g(a) = |x1 – a| + |x2 – a| + … + |xN – a| に対して、g(a) を最小にするaを求めよ。 Answer: a = ? (考えてみてください。) Comment: 平均偏差と関係あり? H. Kameda ( Tokyo University of Technology ) 15 (参考) 平均偏差MDとは MD = (|x1 – m| + |x2 – m| + … + |xN – m|) / N でしたね。 H. Kameda ( Tokyo University of Technology ) 16 チャレンジ問題2 Problem: 関数h(a) = |x1 – a|2 + |x2 – a|2 + … + |xN – a|2 に対して、h(a) を最小にする a を求めよ。 Comment: これも平均mの性質の1つ。 H. Kameda ( Tokyo University of Technology ) 17 具体的に計算してみよう! 1. データ: 16, 45, 39, 53, 67 2. 平均m = (16 + 45 + 39 + 53 + 67)/5=44 3. A = (16 - m) + (45 – m) + … + (67 – m) = 220 – 5×44 = 0 H. Kameda ( Tokyo University of Technology ) 18 4. f(a) = (16 – a) + (45 – a) + … + (67 – a) = 220 – 5a 従って、f(a)=0 a = 44 = m 5. g(a) = |16 - a| + |45 - a| + |39 - a| + |53 - a| + |67 - a| = |16 - a| + |39 - a| + |45 - a| + |53 - a| + |67 - a| H. Kameda ( Tokyo University of Technology ) 19 i. ii. iii. iv. v. vi. a ≦ 16 g(a) = -5a + 220 16 ≦ a ≦39g(a) = -3a + 188 39 ≦ a ≦45g(a) = -a + 110 45 ≦ a ≦53g(a) = a + 20 53 ≦ a ≦67g(a) = 3a - 86 a ≧ 67 g(a) = 5a – 220 最小値はa=45のとき。 45は16, 39, 45, 53, 67の中央値! H. Kameda ( Tokyo University of Technology ) 20 (参考) 中央値(median)とは、 データを大きさの順に並べたとき、真ん中 にくるデータのこと。 16, 39, 45, 53, 67 これが中央値 H. Kameda ( Tokyo University of Technology ) 21 6. h(a) = |16 - a|2 + … + |67 - a|2 = (16 - a)2 + (39 - a)2 + (45 - a)2 + (53 - a)2 + (67 - a)2 ちょっと計算すると… h(a)を最小にするaは、a=m。 平均 H. Kameda ( Tokyo University of Technology ) 22 ここまでのまとめ 次のスライドの通り。 H. Kameda ( Tokyo University of Technology ) 23 平均と中央値の性質 1. 基準点をmとするとき、(xi - m)の総和は 常にゼロとなる。 2. |xi – a|の総和は、a=中央値(median)の とき最小になる。 3. |xi – a|2の総和は、a=m(平均)のとき最 小となる。 平均=(Σxi)/N の妥当性 を示している。 H. Kameda ( Tokyo University of Technology ) 24 以上のような事実を踏まえて,... H. Kameda ( Tokyo University of Technology ) 25 各種統計量の考察 1. m = (Σxi ) / N の定義は妥当 2. 平均偏差MD= (|xi – m|の平均) 3. 平均偏差の式において、中央値(median)に は意味がある。(平均偏差の定義には中央値 を用いるべきか?) 4. 分散=(|xi – m|2の平均) 5. 分散の式において、mが平均のとき最小となる ので、平均mを基準とするのは妥当である。 H. Kameda ( Tokyo University of Technology ) 26 簡単な練習問題 表.成人男性50人の血圧 Problem: 次のデータは50人 の成人男性の血圧 値である。平均m、 中央値me、モード mode(最頻値)、 分散s2、標準偏差s をそれぞれ求めよ。 Advice: EXCELを使おう! 120 132 126 123 114 135 125 155 96 122 115 93 124 124 126 110 136 132 112 168 108 107 117 117 133 100 142 110 120 160 H. Kameda ( Tokyo University of Technology ) 111 114 102 152 120 120 113 136 118 126 116 118 155 130 148 108 147 125 115 154 27 まとめ • データ群が与えられたとき、 データの代表値: 1. 平均(mean) 2. 中央値(median) 3. モード(mode) or 最頻値 データのバラツキ: 1. 範囲(range) or レンジ 2. 分散(variance) 3. 標準偏差(standard deviation) 赤字のものは、基本統計量とも呼ばれる。 H. Kameda ( Tokyo University of Technology ) 28 • データが与えられたら、指定されなくても基本 統計量は常に計算するもの。 – 平均・中央値・モード・分散(or 標準偏差) 度数分布表やヒストグラムも 言われなくても描きましょう! H. Kameda ( Tokyo University of Technology ) 29 再掲 • データ群 {x1 , x2 , x3 ,..., xn } • データ全体としての性質を数値化すると – – – – – – – 平均(データの代表値, mean) 分散(データの散らばり, variance) 標準偏差(データの散らばり, standard deviation) 中央値(データの代表値, median) 最頻値(データの代表値, mode) 最大値&最小値 範囲(データの散らばり, range) etc. H. Kameda ( Tokyo University of Technology ) これらの改良版 • 幹葉表示(stem-leaf-and-forget-display) – 度数分布表 • 5数表示(five number display) – 基本統計量 • 箱ヒゲ図 – 基本統計量の図示 H. Kameda ( Tokyo University of Technology ) 幹葉表示 • 基本的考え方 427 4 2 7 4 2 0 313 3 1 3 3 1 0 232 2 3 2 2 3 0 323 3 2 3 3 2 0 434 4 3 4 4 3 0 317 3 1 7 3 1 0 311 3 1 1 3 1 0 幹 (stem) Most Significant Digit 葉 (leaf ) H. Kameda ( Tokyo University of Technology ) 端数 (forget) 幹葉表示(例) H. Kameda ( Tokyo University of Technology ) 練習 Problem 以下のデータセットに関し 「幹葉表示」を求めよ。 283, 339, 350, 348, 386, 390, 360, 423, 393, 350, 239, 272, 150, 189, 340, 399, 288, 321, 331, 335, 283, 261, 253, 286, 284, 173, 132, 199, 235, 212, 310, 285, 258, 215, 267, 282, 278, 225, 183, 267, 311, 233, 322, 282, 315, 290, 273, 138 H. Kameda ( Tokyo University of Technology ) 五数表示(五数要約) データのばらつきの様子をあらわすのに、 • 最小値 • 第1四分位数(小さいほうから1/4のところのデータ) • 第2四分位数(小さいほうから2/4のところのデータ、 中央値と同じこと) • 第3四分位数(小さいほうから3/4のところのデータ) • 最大値 の5つの数を用いて表すこと。 H. Kameda ( Tokyo University of Technology ) 練習 Problem 先述のデータセットに関し 「五数要約」を求めよ。 H. Kameda ( Tokyo University of Technology ) 箱ひげ図 (黒板で説明します) H. Kameda ( Tokyo University of Technology ) 練習 Problem 先述のデータセットに関し 「箱ひげ図」を求めよ。 H. Kameda ( Tokyo University of Technology ) 練習 • 次のデータセットを使って、ドットプロットを作 成した見なさい。 データセット: 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 10 ここまでの内容を復習 • R言語を使って、実際に処理してみよう! – データセットの作り方 – データセットの読み込み方 H. Kameda ( Tokyo University of Technology )
© Copyright 2024 ExpyDoc