確率と統計2010 平成22年12月9日(木) 東京工科大学 亀田弘之 まずは復習から かま学 らたん ず説で や(時 。よに ろこ これ ばを し習 )う 。 東京工科大学 不学 亦而 説時 乎習 之 確率と統計2010 2 はじめにデータありき 5 9 2 8 1 6 1 2 4 1 7 社会調査や実験の実施 により得られる 東京工科大学 確率と統計2010 3 • データを全体として眺めるとき, 集団として何らかの性質を持っている. =>統計的性質 • この性質(分布の様子)を,例えば, (算術)平均・中央値・モードなどの いわゆる代表値や,分散・標準偏差・範囲 (range)などで数値的に捕らえた. 定義や計算方法が重要. 統計ソフトの利用も考えよう. 東京工科大学 確率と統計2010 4 統計ソフトウェア • • • • 参考情報 EXCEL:お手軽? R:フリーソフトウェア(お勧め?) SPSS:本格的なソフトウェア(有償) SAS:本格的なソフトウェア(有償) • GnunPlot・Maximaなども便利 (いろいろと学んでください.) 日本計算機統計学会のページも参考にしてください。 http://www.jscs.or.jp/etc/softdata.html 東京工科大学 確率と統計2010 5 基本的な統計量 • • • • • • • 平均 (mean) 中央値 (median) モード (mode) 最大値・最小値 (maximum, minimum) 範囲 (range) 分散 (variance) 標準偏差 (standard deviation) など 東京工科大学 確率と統計2010 6 平均 • 定義 : m =(x1 + x2 + ・・・+Xn)÷n • 意味:データ群の中心(重心) • 考え方:データ群の中心(重心)で,データ群 を代表させる。(代表値) • 特徴:量 T ( x1 m)2 ( x2 m)2 ( xn m)2 の最小値を与える点. (基準点としてふさわしい) 東京工科大学 確率と統計2010 7 中央値 • 定義:データを大きさの順に並べたときに 中央にくるデータ値。 • 意味:順序的観点から真ん中辺り。 • 考え方:順序的観点から中庸を捉えている。 真ん中辺りを代表値とする。 • 特徴:飛び離れ値に影響されない。 量 T | x1 M | | x2 M | | xn M | の最小値を与える点。 東京工科大学 確率と統計2010 8 モード(最頻値) • 定義:度数(出現回数)がもっとも 多いデータ値。 • 意味:多数派がデータ群を代表する。 • 考え方:度数の多いもの程重要。 • 特徴:飛び離れ値に影響されない。 代表値として素直な定義。 東京工科大学 確率と統計2010 9 データの散らばりも大切 • 分散 (variance) • 標準偏差 (standard deviation) • 範囲 (range) 東京工科大学 確率と統計2010 10 範囲(レンジ) • 定義:R = 最大値 ー 最小値 • 考え方:データの存在範囲 (すべてのデータはこの 範囲内にある) • 特徴:計算が簡単 (工場などで実用されている) 東京工科大学 確率と統計2010 11 分散 ( x1 m) 2 ( x2 m) 2 ( xn m) 2 n • 考え方:「各データの平均mからのずれ」に着目して、 その平方数の平均を求め、データ全体の散らばり を捉える。 • 特徴:数学的に取り扱いやすい。 • 定義: 東京工科大学 確率と統計2010 12 標準偏差 • 定義:分散の平方根(√分散) • 考え方:分散をもとに,データと同じ 次元の量にする。 • 特徴:データに対して、足したり 引いたりすることができる。 東京工科大学 確率と統計2010 13 以上で、得られたデータ群の 特徴をとらえることができるよう になった。 東京工科大学 確率と統計2010 14 さてもっと先に進みましょう • Let’s go further! 東京工科大学 確率と統計2010 15 知りたい対象(母集団) 母集団 4 31 5 1 6 7 東京工科大学 確率と統計2010 16 標本 母集団 4 31 5 1 6 7 5 1 3 1 無作為抽出 東京工科大学 確率と統計2010 17 標本 母集団 4 31 5 1 6 7 5 1 3 1 統計的分析 東京工科大学 確率と統計2010 18 標本 母集団 4 31 5 1 6 7 5 1 3 1 統計的推論 東京工科大学 確率と統計2010 19 抽出法 • 無作為抽出法: どのデータも等確率で抽出されるようなサンプ リング法。つまり、どの単純事象も等確率で取り 出される抽出法。 Laplaceの確率の定義参照。高校で習った確率 の定義でOK。 • より詳しく知りたい人は、社会調査法などの勉強 をしてください。(データは適切に集めなければ、 分析しても意味がない。サンプル数の決め方な ども重要です。) 東京工科大学 確率と統計2010 20 分析法 • 統計的推定 • 統計的検定 この授業では「モデルに基づく分析」を主に 取り扱っているが、近年モデルに基づかない 分析法も重要になっている。 (例:データマイニングの分野) 東京工科大学 確率と統計2010 21 統計的推定 • 点推定 • 区間推定 – 信頼区間 – 信頼限界 興味のある人は、教科書p.136~p.142を 参照のこと。 東京工科大学 確率と統計2010 22 統計的検定 • この授業では、まず、これを学んで欲しいと 思っています。 (理由:とにかく役に立つから。 そして、慣れないと結構難しいから。) 東京工科大学 確率と統計2010 23 仮説検定の考え方 • 前提: – 調査や実験によりある事実Eが得られた. – この事実からあることを主張したい. (これを仮説という.) • 方法論: – モデルを仮定する(仮説設定:帰無仮説H0) – その仮説が正しいとして,事実Eの生起確率pを計算する. – pの値が異常に小さければ,仮説H0を棄却する. (誤謬法/背理法の考え方) 東京工科大学 確率と統計2010 24 検定の考え方の例 • 実験:サイコロを600回振ったら、1の目が 180回出た(事実E). • 主張したいこと:1の目が出やすい. • 仮説の設定:どの目も等確率で出る. 180 420 181 419 • Eの生起確率pの計算: 1 5 1 5 p 600 C180 600 C181 p≒0 6 6 6 6 182 418 600 0 1 5 1 5 • 判断:出易い. 600 C182 600 C600 6 6 6 6 計算方法と判断の基準の理解が重要 東京工科大学 確率と統計2010 25 (重要)確率分布の相互関係図 東京工科大学 確率と統計2010 26 事実: 2項分布は正規分布で近似できる • この事実(定理)に着目して計算をする。 (先週のお話しましたよね!) 1. 2項分布の平均mと分散s2を求める B(m, s2 )。 2. Nが十分大きければN(m, s2 )で近似。 3. 標準化する。 X m Z s 4. 標準正規分布N(0,12)の数表を利用して、 確率計算する。 東京工科大学 確率と統計2010 27 例題(教科書p.163例1) ある市役所ではこれまで数年間銘柄Aの電球 を購入していたが,銘柄Bの電球の方が価格 が安いのでBへの切り替えを考えている.銘 柄Bのセールスマンは自社の製品が品質に おいてAの製品と同じであると主張している. 数年間の経験によれば,製品Aの平均寿命 は1180時間で,標準偏差は90時間であった. 東京工科大学 確率と統計2010 28 製品Bのセールスマンの主張をテストするため, その銘柄の電球100個を正規販売店から購 入して試験をした.その結果,m=1140,s=80が 得られた.電球の品質の尺度として平均寿命 時間を考えるとすれば,どう結論すべきか? 東京工科大学 確率と統計2010 29 問題の整理 • 事実:製品Bのm=1140,s=80 製品Aのm=1180,s=90 • 知りたいこと:Bの方が劣っている. • 仮説:AとBは品質的に同等. • 確率の計算:Bのデータの生起確率pを, 平均μ=1180,分散σ2=902の母集団から の抽出として計算する. • 危険率(有意水準)αを設定:α=10%とする. 東京工科大学 確率と統計2010 30 確率の計算をしてみよう • (いままでと少し違うところが出てきます!) 東京工科大学 確率と統計2010 31 理論的根拠(1) • 標本平均の平均mは母平均と等しい. • 標本平均の分散σm2は母分散のn分の1倍. (nは標本の大きさ) つまり, E(m) = μ E(σm2)=σ2/n 東京工科大学 確率と統計2010 32 理論的根拠(2) • xが平均μ,分散σ2 の任意の分布に従うとき, 大きさnの無作為標本に基づく標本平均mは, nが限りなく大きくなるとき, 平均 μ,分散 σ2 /n の正規分布に近づく. 中心極限の定理 (統計学で1番重要な定理) 東京工科大学 確率と統計2010 教科書p.130 定理2 33 計算 • 標本平均の標準偏差: 90/√100 = 9 • 標準化: Z = ((1140 – 1180) -0)/ 9 = -40/9 = -4.4 • 標準正規分布表(教科書p.295 表IV): Zがー∞~-4.4の範囲の値をとる確率は, p≒0. 東京工科大学 確率と統計2010 34 判断 • 確率p≒0 < 0.1 (10%) . • おきにくい事が起きたのではなく,仮設が間 違っていると考えて,仮設を棄却する. • 最終結論: 有意水準10%において, 銘柄BはAよりも劣っている. 東京工科大学 確率と統計2010 35 コメント • 確率の計算方法を理解するためには、数学 の勉強が必要であるが、検定を目的とするの であれば,基本的考え方と手順とをしっかりと マスターすればよい。 • 理論的なものは、必要に応じて,必要になっ たものだけを一生かけてゆっくり、かつ、じっく り勉強してください。 東京工科大学 確率と統計2010 36 χ2検定 • いろんな場面で使えて便利な検定法. (先ほどのサイコロの例を再び取り上げてみ る.) 東京工科大学 確率と統計2010 37 (自分で表を作ってください) 1の目が 出る回数 他の目が 出る回数 実測値A 180 420 600 理論値B 100 500 600 (A-B)2/B 64 64/5 合計 76.8 自由度φ= 2-1=1 東京工科大学 確率と統計2010 38 • χ2 = 76.8 > χ02 = 6.6(有意水準1%) • 結論:有意水準1%のもとで,1の目は出や すい. 手法は異なっても結論は同じ! 東京工科大学 確率と統計2010 39 2つの平均の差の検定 • 先の電球A, Bの品質の差の問題を再度取り 上げる。これは2つの平均同士に差があるか どうかの検定と考えることもできる。 これを「2つの平均の差の検定問題」という。 教科書p.172~p.176 東京工科大学 確率と統計2010 40 定理 • x1,x2がそれぞれ独立に平均μ1,μ2,標準偏 差σ1,σ2の正規分布に従うとき,変数x1-x2 は 平均 μ1ーμ2, 標準偏差 σx1-x2 = √(σx12+ σx22) = √(σ12/n1 + σ22/n2) の正規分布に従う。 東京工科大学 確率と統計2010 41 • 仮説:Aの平均とBの平均とは等しい。 • 計算: 変数x1-x2は、 – 平均 = 0 – 標準偏差 = √(90*90/100 + 80*80/100) = 12 の正規分布に従う. • Z=(1140-1180)/12=-40/12=-10/3=-3.3 • Zがー3.3以下か+3.3以上になる場合の正規分布曲線の面 積を求めると、表VIより,p≒0 • 結論:AとBの平均の差は同じではない。 東京工科大学 確率と統計2010 42 コメント • 「2つの平均の間に差があるのか?」はしばし ば問題となるので、この検定方法は役に立つ。 • ただし今の場合、母分散σ1,σ2が既知である。 これらが既知でない場合はもう一工夫が必要 となる(t検定を導入する必要がある)。 東京工科大学 確率と統計2010 43 練習問題 東京工科大学 確率と統計2010 44 Problem1 さいころを180回投げて、1の目の出る 確率が28回以上、34回以下である確率を 求めよ。 東京工科大学 確率と統計2010 45 ヒント 1. B(n,p)の二項分布は、nが十分大きければ、 平均np, 分散np(1-p)の正規分布で近似でき る。 2. N(μ, σ2)の正規分布は、標準化変換 Z = (X – μ)/σ により、標準正規分 N(0, 1)に変換される。 3. 標準正規分布に関する計算は、数表を利用 することができる。 東京工科大学 確率と統計2010 46 Problem2 • 1つのさいころを120回投げたら以下のように なった。このさいころは正しく作られている か? 有意水準5%で検定せよ。 目の数 1 出現回数 19 2 31 3 4 5 6 合計 17 23 11 19 120 東京工科大学 確率と統計2010 47 Problem3 • ある町で無作為に選ばれた618名に対して、 とある伝染病の予防接種の効果を調べたら、 以下のようになった。この予防接種は有効と いえるか?有意水準5%で検定せよ。 罹病 健康 合計 予防接種した 4 354 358 予防接種せず 9 251 260 13 605 618 計 東京工科大学 確率と統計2010 48 Problem4 • 結婚に対する適応性に関してのアンケート 調査を行ったら次ページのような結果が得 られた。“学歴”と“結婚に対する適応性” の間には関係があるといえるか? ただし、 有意水準5%。 学歴 結婚に対する適応性 非常に低い 低い 高い 非常に高い 大学卒 高校卒 小中学 卒 18 17 11 29 28 10 70 30 11 115 41 20 232 116 52 計 46 67 111 176 400 東京工科大学 確率と統計2010 計 49 ヒント I. 理論値 学歴 結婚に対する適応性 非常に低い 低い 高い 非常に高い 計 大学卒 高校卒 小中学 卒 27 13 6 39 19 9 64 32 14 102 51 23 232 116 52 計 46 67 111 176 400 II. 自由度φ = (行数 ー 1)× (列数 ー 1) = (3-1)・(4ー1) =6 III. 計算値χ2 = 20.7東京工科大学 > 確率と統計2010 χ02 = 12.6 50
© Copyright 2024 ExpyDoc