確率と統計2009 平成20年1月7日(木) 東京工科大学 亀田弘之 修正版Version 3 復習 2 はじめにデータありき 5 9 2 8 1 6 1 2 4 1 7 社会調査や実験の実施 により得られる3 データを全体として眺めるとき, 集団として何らかの性質を持っている. =>統計的性質 この性質(分布の様子)を,例えば, (算術)平均・中央値・モードなどの いわゆる代表値や,分散・標準偏差・ 範囲(range)などで数値的に捕らえた. 定義や計算方法が重要. 統計ソフトの利用も考えよう.4 統計ソフトウェア 参考情報 EXCEL:お手軽? R:フリーソフトウェア(お勧め?) SPSS:本格的なソフトウェア(有償) SAS:本格的なソフトウェア(有償) GnunPlot・Maximaなども便利 (いろいろと学んでください.) 日本計算機統計学会のページも参考にしてください。 5 http://www.jscs.or.jp/etc/softdata.html 基本的な統計量 平均 中央値 モード 最大値・最小値 範囲 分散 標準偏差 など 6 平均 定義 : m =(x1 + x2 + ・・・+Xn)÷n 意味:データ群の中心 考え方:データ群の中心で,データ群 を代表させる.(代表値) 特徴:量 T ( x1 m)2 ( x2 m)2 ( xn m)2 の最小値を与える点. (基準点としてふさわしい) 7 中央値 定義:データを大きさの順に並べたときに 中央にくるデータ値. 意味:順序的観点から真ん中辺り. 考え方:順序的観点から中庸を捉えている. 真ん中辺りを代表値とする. 特徴:飛び離れ値に影響されない. 量 T | x1 M | | x2 M | | xn M | の最小値を与える点. 8 モード 定義:度数(出現回数)がもっとも 多いデータ値. 意味:多数派がデータ群を代表する. 考え方:度数の多いもの程重要. 特徴:飛び離れ値に影響されない. 代表値として素直な定義. 9 データの散らばりも大切 分散 標準偏差 範囲 10 範囲(レンジ) 定義:R = 最大値 ー 最小値 考え方:データの存在範囲 (すべてのデータはこの 範囲内にある) 特徴:計算が簡単 (工場などで実用されている) 11 分散 定義: ( x1 m) 2 ( x2 m) 2 ( xn m) 2 n 考え方:「各データの平均mからのずれ」に着 目して,その平方数の平均を求め,データ全体 の散らばりを捉える. 特徴:数学的に取り扱いやすい. 12 標準偏差 定義:分散の平方根(√分散) 考え方:分散をもとに,データと同じ 次元の量にする. 特徴:データに対して,足したり 引いたりすることができる. 13 以上で,得られたデータ群の 特徴をとらえることができる ようになった. 14 さて,… 15 知りたい対象(母集団) 母集団 4 31 5 1 6 7 16 標本 母集団 4 31 5 1 6 7 5 1 3 1 無作為抽出 17 母集団 4 31 5 1 6 7 標本 5 1 3 1 統計的分析 18 標本 母集団 4 31 5 1 6 7 5 1 3 1 統計的推論 19 抽出法 無作為抽出法: どのデータも等確率で抽出されるようなサン プリング法.どの単純事象も等確率で取り出 される抽出法.Laplaceの確率の定義参照. 高校で習った確率の定義でOK. 詳しく知りたい人は,社会調査法などの勉強 をしてください.(データは適切に集めなけ れば,分析しても意味がない.サンプル数の 決め方なども重要です.) 20 分析法 統計的推定 統計的検定 この授業では「モデルに基づく分析」 を主に取り扱っているが,近年モデル に基づかない分析法も重要になってい る.(例:データマイニングの分野) 21 統計的推定 点推定 区間推定 信頼区間 信頼限界 興味のある人は,教科書p.136~p.142 を参照のこと. 22 統計的検定 この授業では,まず,これを学んで欲 しいと思っています. (理由:とにかく役に立つから. そして,なれないと結構 難しいから.) 23 仮説検定の考え方 前提: 調査や実験によりある事実Eが得られた. この事実からあることを主張したい. (これを仮説という.) 方法論: モデルを仮定する(仮説設定:帰無仮説H0) その仮説が正しいとして,事実Eの生起確率pを計算 する. pの値が異常に小さければ,仮説H0を棄却する. (誤謬法の考え方) 24 検定の考え方の例 実験:サイコロを600回振ったら,1の目が 180回出た(事実E). 主張したいこと:1の目が出やすい. 仮説の設定:どの目も等確率で出る. Eの生起確率pの計算: 180 420 181 419 p≒0 1 5 1 5 p 600 C180 600 C181 6 6 6 6 判断:出易い. 182 1 5 600 C182 6 6 418 1 600 C600 6 計算方法と判断の基準の理解が重要 600 5 6 25 0 (重要)確率分布の相互関係図 26 例題(教科書p.163例1) ある市役所ではこれまで数年間銘柄Aの 電球を購入していたが,銘柄Bの電球の 方が価格が安いのでBへの切り替えを考 えている.銘柄Bのセールスマンは自社 の製品が品質においてAの製品と同じで あると主張している.数年間の経験に よれば,製品Aの平均寿命は1180時間 で,標準偏差は90時間であった. 27 製品Bのセールスマンの主張をテストする ため,その銘柄の電球100個を正規販売 店から購入して試験をした.この結果, m=1140,s=80が得られた.電球の品質 の尺度として平均寿命時間を考えると すれば,どう結論すべきか? 28 問題の整理 事実:製品Bのm=1140,s=80 製品Aのm=1180,s=90 知りたいこと:Bの方が劣っている. 仮説:AとBは品質的に同等. 確率の計算:Bのデータの生起確率pを,平均 μ=1180,分散σ2=90^2の母集団からの抽出と して計算する. 危険率(有意水準)αを設定する. Α=10%とする. 29 確率の計算をしてみよう 30 理論的根拠(1) 標本平均の平均mは母平均と等しい. 標本平均の分散σm2は母分散のn分の1 倍.(nは標本の大きさ) つまり, E(m) = μ E(σm2)=σ2/n 31 理論的根拠(2) xが平均μ,分散σ2 の任意の分布に従う とき,大きさnの無作為標本に基づく 標本平均mは,nが限りなく大きくな るとき,平均 μ,分散 σ2 /n の正規分布 に近づく. 中心極限の定理 (統計学で1番重要な定理) 教科書p.130 定理2 32 計算 標本平均の分散: 90/√100 = 9 標準化: Z = (1140 – 1180) / 9 = -40/9 = -4.4 標準正規分布表(教科書p.295 表IV): Zがー∞~-4.4の範囲の値をとる確率 は,p≒0. 33 判断 確率p≒0 < 0.1 (10%) . おきにくい事が起きたのではなく,仮 設が間違っていると考えて,仮設を捨 てる. 最終結論:有意水準10%において, 銘柄BはAよりも劣っている. 34 コメント 確率の計算方法を理解するためには, 数学の勉強が必要であるが,検定をす ることが目的の場合,基本的考え方と 手順をしっかりとマスターすればよい. 理論的なものは,必要に応じて,必要 になったものだけを一生かけて勉強し てください. 35 χ2検定 いろんな場面で使えて便利な検定法. (先ほどのサイコロの例を再び取り上 げてみる.) 36 1の目が 出る回数 他の目が 出る回数 実測値A 180 420 600 理論値B 100 500 600 (A-B)2/B 64 64/5 合計 76.8 自由度φ= 2-1=1 37 χ2 = 76.8 > χ02 = 6.6(有意水準1%) 結論:有意水準1%のもとで,1の目 は出やすい. 手法は異なっても結論は同じ 38 2つの平均の差の検定 先の電球A,Bの品質の差の問題を再度 取り上げる.これは2つの平均同士に 差があるかどうかの検定と考えること もできる.これを「2つの平均の差の 検定問題」という. 教科書p.172~p.176 39 定理 x1,x2がそれぞれ独立に平均μ1,μ2,標準 偏差σ1,σ2の正規分布に従うとき,変数 x1-x2 は 平均 μ1ーμ2, 標準偏差 σx1-x2 = √(σx12+ σx22) = √(σ12/n1 + σ22/n2) の正規分布に従う. 40 仮説:Aの平均とBの平均とは等しい. 計算: 変数x1-x2は, 平均 = 0 標準偏差 = √(90*90/100 + 80*80/100) = 12 の正規分布に従う. Z=(1140-1180)/12=-40/12=-10/3=-3.3 Zがー3.3以下か+3.3以上になる場合の正規分布曲線 の面積を求めると,表VIより,p≒0 結論:AとBの平均の差は同じではない. 41 コメント 「2つの平均の間に差があるのか?」 はしばしば問題となるので,この検定 方法は役に立つ. ただし今の場合,母分散σ1,σ2が既知で ある.これらが既知でない場合はもう 一工夫が必要となる.(t検定を導入す る必要がある.) 42 練習問題 43 Problem1 さいころを180回投げて、1の目の出る確 率が28回以上、34回以下である確率を 求めよ。 44 ヒント 1. B(n,p)の二項分布は、nが十分大きけれ ば、平均np, 分散np(1-p)の正規分布で 近似できる。 2. N(μ, σ2)の正規分布は、標準化変換 Z = (X – μ)/σ により、標準正規分 N(0, 1)に変換される。 45 Problem2 1つのさいころを120回投げたら以下の ようになった。このさいころは正しく 作られているか? 有意水準5%で検定 せよ。 目の数 1 出現回数 19 2 3 4 5 6 合計 31 17 23 11 19 120 46 Problem3 ある町で無作為に選ばれた618名に対し て、とある伝染病の予防接種の効果を 調べたら、以下のようになった。この 予防接種は有効といえるか?有意水準 5%で検定せよ。 罹病 健康 合計 予防接種した 4 354 358 予防接種せず 9 251 260 13 605 618 計 47 Problem4 結婚に対する適応性に関してのアンケ ート調査を行ったら次ページのような 結果が得られた。“学歴”と“結婚に 対する適応性”の間には関係があると いえるか? ただし、有意水準5%。 学歴 結婚に対する適応性 非常に低い 低い 高い 非常に高い 計 大学卒 18 高校卒 17 小中学卒 11 29 28 10 70 30 11 115 41 20 232 116 52 計 67 111 176 400 46 48 ヒント I. 理論値 学歴 結婚に対する適応性 非常に低い 低い 高い 非常に高い 計 大学卒 27 高校卒 13 小中学卒 6 39 19 9 64 32 14 102 51 23 232 116 52 計 67 111 176 400 46 II. 自由度φ = (行数 ー 1)× (列数 ー 1) = (3-1)・(4ー1) =6 III. 計算値χ2 = 20.7 > χ02 = 12.6 49
© Copyright 2024 ExpyDoc