確率と統計2004 平成19年10月18日(木) 第3日目おまけ 本資料の内容 1. 平均(算術平均)の性質 2. 平均偏差の性質 3. 分散の性質 平均の性質 定義: 平均=(データの総量)÷(データの個数) m=T/N m: 平均(mean) T: データの総量 T = x 1 + x2 + … + x N N: データの個数 定義: 平均=(データの総量)÷(データの個数) m=T/N m = ( x1 + x2 + … + xN )÷N m = ( x1 + x2 + … + xN ) / N m = (Σxi ) / N 書き方はいろいろですが、どれも同じ! 慣れてください。 例(あるいはProblem) • わかりきった話ですが… 実際に計算し考えることは大切です。 常に練習(計算・思考)をしましょう。 • Problem 次のようなデータが得られた。 平均mを求めてみよう。 データ: 16, 45, 39, 53, 67 • Answer: 平均m = ( 16 + 45 + 39 + 53 + 67 ) / 5 = 220 / 5 = 44 図形的考察: 10 20 30 40 50 60 70 • 考察 xi 10 20 30 40 50 60 70 xi - m A = (x1 – m) + ( x2 – m) + … + (x5 – m) を計算してみると… A = (x1 – m) + ( x2 – m) + … + (x5 – m) = ( x1 + x2 + … + xN ) – N×m = ( x 1 + x 2 + … + xN ) – N×( x1 + x2 + … + xN ) / N =0 これは平均の性質の1つ! 定理: 関数f(a) = (x1 – a) + ( x2 – a) + … + (xN – a) に対して、f(a) = 0 となるのは、a=mのと きである。 Problem: 関数g(a) = |x1 – a| + |x2 – a| + … + |xN – a| に対して、g(a) を最小にするaを求めよ。 Answer: a = ? (考えてみてください。) Comment: 平均偏差と関係あり? (参考) 平均偏差MDとは MD = (|x1 – m| + |x2 – m| + … + |xN – m|) / N でしたね。 Problem: 関数h(a) = |x1 – a|2 + |x2 – a|2 + … + |xN – a|2 に対して、h(a) を最小にするaを求めよ。 Comment: これも平均mの性質の1つ。 具体的に計算してみよう! 1. データ: 16, 45, 39, 53, 67 2. 平均m = (16 + 45 + 39 + 53 + 67)/5=44 3. A = (16 - m) + (45 – m) + … + (67 – m) = 220 – 5×44 = 0 4. f(a) = (16 – a) + (45 – a) + … + (67 – a) = 220 – 5a 従って、f(a)=0 a = 44 = m 5. g(a) = |16 - a| + |45 - a| + |39 - a| + |53 - a| + |67 - a| = |16 - a| + |39 - a| + |45 - a| + |53 - a| + |67 - a| i. ii. iii. iv. v. vi. a ≦ 16 16 ≦ a ≦39 39 ≦ a ≦45 45 ≦ a ≦53 53 ≦ a ≦67 a ≧ 67 g(a) = -5a + 220 g(a) = -3a + 188 g(a) = -a + 110 g(a) = a + 20 g(a) = 3a - 86 g(a) = 5a – 220 最小値はa=45のとき。 45は16, 39, 45, 53, 67の中央値! (参考) 中央値(median)とは、 データを大きさの順に並べたとき、真ん中 にくるデータのこと。 16, 39, 45, 53, 67 これが中央値 6. h(a) = |16 - a|2 + … + |67 - a|2 = (16 - a)2 + (39 - a)2 + (45 - a)2 + (53 - a)2 + (67 - a)2 ちょっと計算すると… h(a)を最小にするaは、a=m。 平均 ここまでのまとめ 次のスライドの通り。 平均と中央値の性質 1. 基準点をmとするとき、(xi - m)の総和 は常にゼロとなる。 2. |xi – a|の総和は、a=中央値(median) のとき最小になる。 3. |xi – a|2の総和は、a=m(平均)のとき最 小となる。 平均=(Σxi)/N の妥当性 を示している。 以上のような事実を踏まえて,... 各種統計量の考察 1. m = (Σxi ) / N の定義は妥当 2. 平均偏差MD= (|xi – m|の平均) 3. 平均偏差の式において、中央値(median)に は意味がある。(平均偏差の定義には中央値 を用いるべきか?) 4. 分散=(|xi – m|2の平均) 5. 分散の式において、mが平均のとき最小となる ので、平均mを基準とするのは妥当である。 単純な練習問題 Problem: 次のデータは50人 の成人男性の血圧 値である。平均m、 中央値me、モード mode(最頻値)、分 散s2、標準偏差sを 求めよ。 Advice: EXCELを使おう! 表.成人男性50人の血圧 120 132 126 123 114 135 125 155 96 122 115 93 124 124 126 110 136 132 112 168 108 107 117 117 133 100 142 110 120 160 111 114 102 152 120 120 113 136 118 126 116 118 155 130 148 108 147 125 115 154 まとめ • データ群が与えられたとき、 データの代表値: 1. 平均(mean) 2. 中央値(median) 3. モード(mode) or 最頻値 データのバラツキ: 1. 範囲(range) or レンジ 2. 分散(variance) 3. 標準偏差(standard deviation) 赤字のものは、基本統計量とも呼ばれる。 • データが与えられたら、指定されなくても 基本統計量は常に計算するもの。 – 平均・中央値・モード・分散(or 標準偏差) 度数分布表やヒストグラムも 言われなくても描きましょう! おわり
© Copyright 2025 ExpyDoc