確率と統計 メディア学部2006年後期 No.3 平成19年10月18日(木) お知らせ • 来週11月9日(木)は休講ではないかも知れ ません。掲示に注意していてください。その場 合には、補講はありません。 2 Copyright© 2007 School of Media Science, Tokyo University of Technology 前回の内容 • データ解析の演習 1. 度数分布表の作成 2. ヒストグラムの作成 3 Copyright© 2007 School of Media Science, Tokyo University of Technology 今日の内容 • データ解析 1. 度数分布表の作成(復習) 2. ヒストグラムの作成(復習) 3. グラフの分析 • (データの)代表値 • (データの)散らばり 4 Copyright© 2007 School of Media Science, Tokyo University of Technology 新生児60人の体重(1998) 表. 新生児の体重 (1998年) 3740 2550 2920 2530 3280 2840 2520 3350 3610 3430 3020 3320 2790 3050 3620 3260 3320 3800 2640 3360 3320 4100 2720 4050 3850 3380 3040 2710 4150 3200 4120 2780 3220 2780 2490 2950 2580 2020 3010 2010 2800 2760 4480 2990 3700 2960 2320 3060 3200 3380 3100 2840 2990 3100 3530 3270 2600 3640 3300 4570 単位はグラム 5 Copyright© 2007 School of Media Science, Tokyo University of Technology 度数分布表の作成 1. 2. 3. 4. 5. 最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____ 最小値と最大値とを勘案して、区間の両端 を決める。 6 Copyright© 2007 School of Media Science, Tokyo University of Technology 新生児の体重(1998年) 体重(g) 人数 ~2000 0 2000~2400 3 2400~2800 14 2800~3200 16 3200~3600 14 3600~4000 7 4000~4400 4 4400~4800 2 7 Copyright© 2007 School of Media Science, Tokyo University of Technology ヒストグラム 16 14 12 10 8 6 4 2 0 47 00 44 00 41 00 38 00 35 00 32 00 29 00 系列1 26 00 23 00 人数 新生児の体重(1998年) 体重(g) 8 Copyright© 2007 School of Media Science, Tokyo University of Technology グラフに関する考察(思考実験) • データの個数nをどんどん増やすと – 棒グラフがどんどん高くなる – 度数がゼロの区間がなくなっていく • 区間の幅hをどんどん小さくすると – 棒グラフがどんどん低くなる – 度数がゼロの区間が増えていき、ほとんどの区 間で度数がゼロ、あっても1になる。 9 Copyright© 2007 School of Media Science, Tokyo University of Technology グラフに関する考察(思考実験) • nを増やすとともにhを減らしていくと... • ヒストグラムがある形状に落ち着く! • これは統計的性質の1つ。 – (大数の法則) 10 Copyright© 2007 School of Media Science, Tokyo University of Technology 集団としての特徴値(代表値) • いろんなグラフを比べてみよう! • (正規分布、賃金分布、双峰分布など) 11 Copyright© 2007 School of Media Science, Tokyo University of Technology いろいろなグラフ 12 Copyright© 2007 School of Media Science, Tokyo University of Technology 集団構造の記述 • 調査や測定により得られるデータの集まりに 対して、その集団の構造(特徴)を端的に表現 する指標(代表値)を求めることを、集団構造 の記述という。 • 平均(平均値)はその代表例。 13 Copyright© 2007 School of Media Science, Tokyo University of Technology 平均値 • 例(身長のデータ): – データ群A = {167, 150, 161, 158, 164} – データ群B = {169, 174, 160, 165, 172} (単位:cm) 150 155 160 165 170 175 cm 14 Copyright© 2007 School of Media Science, Tokyo University of Technology 平均値の数学的定義 平均m = (x1 + x2 + x3 + … + xn)÷n 15 Copyright© 2007 School of Media Science, Tokyo University of Technology いろいろな代表値 • 算術平均 (いわゆる平均のこと) • モード (mode) • 中央値 (Median) 16 Copyright© 2007 School of Media Science, Tokyo University of Technology ここまでのまとめ 17 Copyright© 2007 School of Media Science, Tokyo University of Technology 記述統計学 1. まず、データ(data)ありき 2. データの分析 – – – – – 全体を眺める 整列(ソート)する 度数分布表の作成 => どんな値が何個あるのか? ヒストグラムの作成 => よりvisualな表現へ 分布曲線(ヒストグラムの概形)を求める => 数式表現可能 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。 18 Copyright© 2007 School of Media Science, Tokyo University of Technology 記述統計学 1. まず、データ(data)ありき 2. データの分析 – – – – – 全体を眺める 整列(ソート)する 度数分布表の作成 => どんな値が何個あるのか? ヒストグラムの作成 => よりvisualな表現へ 分布曲線(ヒストグラムの概形)を求める => 数式表現可能 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。 19 Copyright© 2007 School of Media Science, Tokyo University of Technology ポイント • 個々のデータ1つ1つに目を奪われることなく – (データを)全体的にとらえる – (データの)集団としての特徴をとらえる ことがポイント。 データの集団としての特徴を数値的にとらえら れないか? 代表値という考えが生まれる。 20 Copyright© 2007 School of Media Science, Tokyo University of Technology 代表値 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n= 21 Copyright© 2007 School of Media Science, Tokyo University of Technology 代表値 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n=12 それでは、簡単に分析してみよう! 22 Copyright© 2007 School of Media Science, Tokyo University of Technology 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 個数 n=12 合計 T=48 表.度数分布表 度数 データの分布の様子 3.5 3 2.5 2 1.5 1 0.5 0 系列1 1 2 3 4 5 6 7 データ値 図.ヒストグラム 8 データ 個 数 小 計 値 (度数) 1 2 2 2 1 2 3 3 9 4 2 8 5 0 0 6 2 12 7 1 7 8 1 8 n=12 T=48 合計 23 Copyright© 2007 School of Media Science, Tokyo University of Technology ヒストグラム 度数 データの分布の様子 3.5 3 2.5 2 1.5 1 0.5 0 系列1 1 2 3 4 5 6 7 8 データ値 図.ヒストグラム 24 Copyright© 2007 School of Media Science, Tokyo University of Technology 特徴を分析してみよう • データの重心(平均) m = (データの合計)÷(データの個数) =T/n = _____ 25 Copyright© 2007 School of Media Science, Tokyo University of Technology 26 Copyright© 2007 School of Media Science, Tokyo University of Technology • モード(最頻値) – 出現頻度が一番多いの はどれ? – Mode= _____ 度数 データの分布の様子 3.5 3 2.5 2 1.5 1 0.5 0 系列1 1 2 3 4 5 6 7 8 データ値 27 Copyright© 2007 School of Media Science, Tokyo University of Technology • 最大値maxと最小値min max = _____ min = _____ 28 Copyright© 2007 School of Media Science, Tokyo University of Technology • 中央値(median) データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 大きさの順番に並べたとき、真ん中にある データの値が中央値 今の場合、med = _____ 3 ? 4 ? 左から6個目 右から6個目 29 Copyright© 2007 School of Media Science, Tokyo University of Technology • 中央値(median) データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 大きさの順番に並べたとき、真ん中にある データの値が中央値 今の場合、med = (3 + 4)÷2 = 3.5 30 Copyright© 2007 School of Media Science, Tokyo University of Technology 分析結果 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n = 12 (算術)平均 m= 4 モード(最頻値) mode = 3 中央値(メディアン) med = 3.5 最大値 max = 8 最小値 min = 1 <= 代表値 <= 代表値 <= 代表値 31 Copyright© 2007 School of Media Science, Tokyo University of Technology • 例2: データ: {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データの個数 n= (算術)平均 m= <= 代表値 モード(最頻値) mode = <= 代表値 中央値(メディアン) med = <= 代表値 最大値 max = 最小値 min = 32 Copyright© 2007 School of Media Science, Tokyo University of Technology • 例2: データ: {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データの個数 n = 12 (算術)平均 m=4 <= 代表値 モード(最頻値) mode = 3 <= 代表値 中央値(メディアン) med = 3.5 <= 代表値 最大値 max = 18 <= 分布の位置 最小値 min = -9 <= 分布の位置 33 Copyright© 2007 School of Media Science, Tokyo University of Technology 例1と例2のデータの比較 • 例1: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データ数 n = 12 平均 m=4 モード mode = 3 中央値 med = 3.5 最大値 max = 8 最小値 min = 1 • 例2 : {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データ数 n = 12 平均 m=4 モード mode = 3 中央値 med = 3.5 最大値 max = 18 最小値 min = -9 分布が異なっているにもかかわらず、代表値は同じ! => 何がいけないのか? 34 Copyright© 2007 School of Media Science, Tokyo University of Technology 平均が同じでも分布の形状が違う例 O 35 Copyright© 2007 School of Media Science, Tokyo University of Technology 平均が同じでも分布の形状が違う例 • データの重心(平均)が同じでも、 データの散らばり方が違っている! => 散らばりを定式化してみよう! 36 Copyright© 2007 School of Media Science, Tokyo University of Technology 散らばりの定式化 • アイデア1: – データの存在範囲 範囲(range) R = 最大値 – 最小値 37 Copyright© 2007 School of Media Science, Tokyo University of Technology アイデア1 • 範囲(range) R = 最大値 ー 最小値 • 長所: – 単純(計算が楽) • 短所: – 2個のデータしか利用していない。 つまり、最大値と最小値の間に存在するデータを利用し ていない。n-2個のデータが無駄。 => すべて(n個)のデータを利用するには…? 38 Copyright© 2007 School of Media Science, Tokyo University of Technology アイデア2 • 平均からのズレの総和Sの平均 – 平均mから各データがどれだけズレているかが偏差。 偏差 di = xi – m (i=1,2,3, … , n) – 偏差の和 S = (x1 – m) + (x2 – m) + … + (xn – m) = 0 <= いつも必ずゼロ – 偏差の和の平均 mean of S = S÷n = 0 <= いつも必ずゼロ • 長所 – すべてのデータの情報を利用 • 短所 – いつもゼロになり意味がない。 39 Copyright© 2007 School of Media Science, Tokyo University of Technology アイデア3 • 平均からの距離の総和Sの平均 – 各データの平均からの距離 D = | di | = | 偏差 | 偏差 di = xi – m (i=1,2,3, … , n) – S = | x1 – m | + | x 2 – m | + … + | xn – m | – 偏差の絶対値の平均(平均偏差M.D.) = S÷n • 長所 – すべてのデータの情報を利用 • 短所 – 数学的取り扱いが大変(どうやって絶対値をはずす?) 40 Copyright© 2007 School of Media Science, Tokyo University of Technology アイデア4 • 平均からの距離の二乗の総和Sの平均 – 各データの平均からの距離 D = | di | = | 偏差 | 偏差 di = xi – m (i=1,2,3, … , n) – S = (x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2 – 距離の自乗の平均 = S÷n • 長所 – すべてのデータの情報を利用 – 数学的に取り扱いやすい • 短所 – 計算が大変? <= コンピュータを利用すればOK! – 解釈は?(データxやmと、Sの次元がちがう!) 41 Copyright© 2007 School of Media Science, Tokyo University of Technology 分散と標準偏差 • 分散S 2 = {(x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2}÷n • 標準偏差S = √ S 2 (分散の平方根) (短所の2番目を配慮して平方根をとった。) 42 Copyright© 2007 School of Media Science, Tokyo University of Technology 散らばり • 以上のような経緯により、データの散らばりの 尺度として、 – 標準偏差S – 分散S 2 – 範囲R – 平均偏差M.D. <= 一般によく利用される。 <=一般によく利用される。 <= 工場等でよく利用される。 <= これも利用されることが ある。 などが用いられる。 43 Copyright© 2007 School of Media Science, Tokyo University of Technology 平均の考え方の重要性 • データ{xi | i=1, 2, 3, …, n} • 平均 m = (x1 + x2 +…+ xn)÷n • 分散: xi から (xi – m)2 を作り出し、この平均を求め ている。 44 Copyright© 2007 School of Media Science, Tokyo University of Technology 例1と例2のデータの比較 • 例1: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データ数 n = 12 平均 m=4 モード mode = 3 中央値 med = 3.5 最大値 max = 8 最小値 min = 1 分散 • 例2 : {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データ数 n = 12 平均 m=4 モード mode = 3 中央値 med = 3.5 最大値 max = 18 最小値 min = -9 分散 分布が異なっているにもかかわらず、代表値は同じ! => 散らばりも考慮しよう! 45 Copyright© 2007 School of Media Science, Tokyo University of Technology おまけ http://www.stat.go.jp/ の右下にある 「How to 統計」のページを参考に、自習 することをお勧めします。特に、世の中に どのような統計データが収集・公開されて いるのかを知ってください。 46 Copyright© 2007 School of Media Science, Tokyo University of Technology
© Copyright 2025 ExpyDoc