確率と統計 メディア学部2007年 2007年11月29日(木) これまでの内容(復習) 統計学の構成 – 記述統計学 • – (確率) • – データの整理(効果的な表・図の作り方) 推計学(統計的推論)の基礎 推計学(数理統計学) • 推定・検定など 確率と統計2007 2 統計学の構成 • • • 記述統計学 確率の基礎 推計学(数理統計学) 確率と統計2007 3 1. 記述統計学 • データ解析の演習 – EXCEL • 基本統計量: – 平均・中央値(メディアン)・最頻値(モード) – 分散・標準偏差 • その他 確率と統計2007 4 2. 確率の基礎 • • 確率の定義 – 試行・標本点ω・標本空間Ω・事象・確率関数 確率の計算 – – – – 加法定理・互いに素 乗法定理・独立性・ ベイズの定理 その他 確率と統計2007 5 3. 推計学(数理統計学) • 推定 • 検定 など 確率と統計2007 6 標本平均mの性質(重要) 大きさnの標本から求めた標本平均mの 平均(期待値)と分散は、次の性質を持つ。 • E(m) =μ (標本平均mの期待値は、母平均μと等しい。) • V(m) = σ2/n (標本平均mの分散は、母分散σ2の1/n。) 確率と統計2007 7 標本分散s2の性質(重要) 大きさnの標本から求めた標本分散s2の 平均は、次の性質を持つ。 • E(s2) =σ2 (標本分散s2の期待値は、母平均σ2と等しい。) (注) E(s) =!=σ 確率と統計2007 8 確率と統計2007 9 確率と統計 (続き) 確率と統計2007 11 今日の内容 1. 推定と検定(続き) 確率と統計2007 12 推定 • 推定とは、標本のデータを利用して(標本 の分析を通じて)、母集団に関するパラ メータ(母平均や母分散など)の値を推測 すること。 確率と統計2007 13 推定(標本が1つのとき) (事実)標本の平均がm (結論)母集団の平均の推定値はm 確率と統計2007 14 推定(標本が2つのとき) (事実)標本の平均がm1とm2 (結論)母集団の平均の推定値は m=(m1+m2)/2 確率と統計2007 15 推定(標本がn個のとき) (事実)標本の平均がm1,m2, …, mn (結論)母集団の平均の推定値は m = (m1 + m2 + …+ mn ) / n 確率と統計2007 16 推定(一般に) (事実) 標本の平均がm 標本の標準偏差がσ (結論)母集団の平均はm、 (その誤差はσ/√n) 確率と統計2007 17 検定 • こちらの方も実用上重要。 確率と統計2007 18 サイコロ実験 サイコロAとBとをそれぞれ100回ずつ投げ たところ以下のようになった。 サイコロA:偶数40回 サイコロB:偶数30回 奇数60回 奇数70回 AもBもサイコロはただしく作られているか? 確率と統計2007 19 問題をもっと簡単にして解説する。 サイコロを5個投げる。 確率と統計2007 20 目(偶)の出方は以下の通り: (場合1) (場合2) (場合3) (場合4) (場合5) (場合6) 偶0回-奇5回: 偶1回-奇4回: 偶2回-奇3回: 偶3回-奇2回: 偶4回-奇1回: 偶5回-奇0回: 奇-奇-奇-奇-奇 偶-奇-奇-奇-奇 偶-偶-奇-奇-奇 偶-偶-偶-奇-奇 偶-偶-偶-偶-奇 偶-偶-偶-偶-偶 確率と統計2007 21 (場合1) 偶0回-奇5回: 奇-奇-奇-奇-奇 の生起確率を計算してみる。 =>乗法定理を用いる。 P0 =(1/2)×(1/2)×(1/2)×(1/2)×(1/2) = (1/2)5 = 1 / 32 確率と統計2007 22 (場合3) 偶2回-奇3回: 偶-偶-奇-奇-奇 ○○XXX ○X○XX ○XX○X ○XXX○ X○○XX X○X○X X○XX○ XX○○X XX○X○ • • 個々の系列の生起確は(1/2)5 。 個々の系列は同時には起きな い(互いに排反)。 => 加法定理 従って、(場合3)全体の生起確率は P2 = 10× (1/2)5 となる。 XXX○○ 確率と統計2007 23 目(偶)の出方は以下の通り: (場合1) (場合2) (場合3) (場合4) (場合5) (場合6) 偶0回-奇5回: 偶1回-奇4回: 偶2回-奇3回: 偶3回-奇2回: 偶4回-奇1回: 偶5回-奇0回: P0 = 1× (1/2)5 P1 = 5× (1/2)5 P2 = 10× (1/2)5 P3 = 10× (1/2)5 P4 = 5× (1/2)5 P5 = 1× (1/2)5 確率と統計2007 24 • 疑問:「5回中2回偶数が出た。偶数の目 は出にくい?」 • これを調べる方法を「検定」という。 • それでは、検定してみよう。 確率と統計2007 25 1. 検定(考え方) 【仮説設定】検定したい事柄に対して「仮説H」を立 てる。 2. 【確率計算】 仮説が正しいものとして、注目してい る出来事の生起確率Pを計算する。 3. 【結論】 – Pの値が極めて小さい =>まず起きないことが起きた。 =>何かが変だからだ。 =>仮説Hが正しいとしたことがいけない。 =>仮説を棄てる。 – Pの値が特に小さくない =>起きてもおかしくないことが起きた。 確率と統計2007 =>特に何も結論なし。(新たな知見なし) 26 • 極めて小さい値として、習慣的に5%(0.05) や1%(0.01)、10%(0.10)がとられる。 <=特に根拠なし。 (3%や7%でもいいが、習慣に従おう) • このような値を、「有意水準」あるいは「危険 率」という。 =>この意味は後で検討する。 確率と統計2007 27 検定(実行例1) 1. 2. 3. 4. 5. 事実:「5回中、偶2回、奇3回」 検定課題:「偶の目が出にくい」 検定の有意水準を決める。ここでは10%とする。 仮説H:「偶奇ともに等確率」 偶数の目が2回以下の確率を求める。 P = P0+ P1+P2 = (1+5+10)×(1/2)5 = 16 / 32 = 1 / 2 3.P = 0.5 > 0.1 4.仮説は棄却されない。 確率と統計2007 28 検定(実行例2) 1. 2. 3. 4. 5. 事実:「5回中、偶1回、奇4回」 検定課題:「偶の目が出にくい」 検定の有意水準を決める。ここでは10%とする。 仮説H:「偶奇ともに等確率」 偶数の目が1回以下の確率を求める。 P = P0+ P1 = (1+5)×(1/2)5 = 6 / 32 = 3 / 16 = 0.2 3.P = 0.2 > 0.1 4.仮説は棄却されない。 確率と統計2007 29 検定(実行例3) 1. 2. 3. 4. 5. 事実:「5回中、偶0回、奇5回」 検定課題:「偶の目が出にくい」 検定の有意水準を決める。ここでは10%とする。 仮説H:「偶奇ともに等確率」 偶数の目が0回以下の確率を求める。 P = P0 = 1×(1/2)5 = 1 / 32 = 0.03 3.P = 0.03 < 0.1 4.Hは棄却される。偶奇の目の出方は等確率ではな い。偶の方が出にくい。 確率と統計2007 30 有意水準あるいは危険率 *有意水準10%の意味: 検定を行うと、結論として、 1. 仮説Hを棄却する 2. 仮説Hを棄却しない という2つの結論のいずれかを下すこと になる。 確率と統計2007 31 検定における判断の問題点 仮説Hを棄却する 仮説Hは本当 仮説Hは本当は は正しい 誤り 正しいのに棄却 正しい判断 仮説Hを棄却しな 正しい判断 い(あるいは採択) 誤りなのに棄却 しない (注)第一種の過誤、第二種の過誤 確率と統計2007 32 • 有意水準10%で仮説を棄却するとき、 • 100回中90回は正しい判断をしているが、 100回中10回は誤った判断をしているこ とになる。 =>これ以降は、データ解析例でさらに勉 強してみましょう。 確率と統計2007 33 確率と統計2007 34 母集団と標本の関係 無作為抽出 母平均μ 標本平均m 標本分散s2 母分散σ2 推測 確率と統計2007 35 推定と検定 • 推定: 適当な統計量を選び、現実の標本から計算した それの現実値をたよりにして、母集団の未知母数 に関し、ある程度、信頼のおける命題をたてること。 母集団について知る • 検定: あらかじめ母集団の型や母数の値を仮定し、現実 のデータがどの程度この母集団からの標本とみな せるか決定すること。 母集団と標本の関係を知る 確率と統計2007 36 検定 母集団と標本の関係 ? 無作為抽出 母平均μ 標本平均m 標本分散s2 母分散σ2 ホントにこの母集団の標本? 確率と統計2007 37 検定の例 • 問題1 ある人がコインを投げ、表の出た回数と 裏の出た回数とを調べたら、表が220回、 裏が180回であった。 これだけの事実から、このコインは歪み なく作られているといえるか? 確率と統計2007 38 考え方(No.1) • コインを無限回投げなければ、表と裏の出 る確率が等しいことはいえないのではない か? ー> 無限回投げることは無理!!! ー> 何も結論できないのだろうか? 確率と統計2007 39 考え方(No.2) • 次のように考えてみよう! • もし「コインが正しく作られている」ならば、 表と裏の出る確率は等しい。そのような母 集団から無作為抽出により n = 400個 の データからなる標本を作り出したとして、 標本中の表の回数Hと裏の回数Tの割合 が 220/400 を超える可能性 p1、および 逆に、180/400 を下回る可能性 p2 を求 める。P = P1 + P2 とする。 確率と統計2007 40 考え方(No.3) • Pの値が十分小さい ー>めったに起きないことがいま起きた ー>普通起きないことが起きた ー>起きるはずのないこと(奇跡)が起きた ー>何かがおかしい! (仮説を捨てる) • Pの値が大きい ->仮説は捨てない (仮説を採用するわけではない) 確率と統計2007 41 考え方(No.4) つまり… • 出現率 p = 1/2 = 0.5 の無限母集団から、 n = 400 のデータを無作為に取り出したと する。このとき、 P = P( m > 220 ) + P( m <180 ) を求めて判断しよう、ということ。 それでは具体的にやってみよう。 確率と統計2007 42 計算 • コイン投げは、いわゆる2項分布と呼ばれて いるものに相当する。 • したがって、 P = P(m>220) + P(m<180) = nC221・(1/2)221・(1/2)179 + ・・・ + nC400・(1/2)400・(1/2)0 + 179・(1/2)221 + ・・・ C ・(1/2) n 179 + nC0・(1/2)0・(1/2)400 + 確率と統計2007 43 • 定理: 2項分布はnが大きければ正規分布で近 似できる。(教科書、108-114ページ) • このことを利用して計算すると楽。 確率と統計2007 44 2項分布の計算を正規分布で! • 変数変換を行う。 Z = (X – m)/s = (X – n・p)/√(n・p・q) この式の意味は? 考えてみること。 • 今の場合、 m = np = 400・0.5 = 200 s = √(npq)=√(400・0.5・0.5) = 10 確率と統計2007 45 • したがって、 P = P(m>220) + P(m<180) = P(Z>(220-200)/10) + P(Z<(180-200)/10) = P(Z>2) + P(Z<-2) = 1 - P(-2<Z<+2) = 1 – 2・P(0<Z<2) = (教科書295ページ参照) 確率と統計2007 46 • P は約 0.046 ー>100回のうち4回か5回の割合でこ のようなこと(表が400回中に220回出 る)がおきうる。 • 仮説「表と裏の出現確率が等しい」が正し ければ、このようなことは100回に4回か 5回しか起きない。 • めったに起きないことがおきた? 確率と統計2007 47 • 統計学的結論: めったにないことが起きたのではなく、 「仮説が正しくない」 と結論する。 つまり、このサイコロは歪んでいると。 (ただし、... ) <- ここからが大切! 確率と統計2007 48 • ただし、このようなことは100回中に数回 起こりえるのだから、このような実験を行っ てこのような結論を下すことは、100回中 4から5回程度間違っていることになる。 • そこで、統計学的には以下のように結論 する。 「有意水準5%のもとに、このコインは歪ん でいる。」 確率と統計2007 49 • 有意水準としては、通常1%、5%、10% などが採用される。(3%、7%などでもい いのだが…) 確率と統計2007 50 確率と統計2007 51 確率と統計2007 52 (おまけ) • 以下の定理も重要な定理です。 確率と統計2007 53 定理1 • x が正規分布 N(μ,σ2) に従うとき、大き さ n の無作為標本に基づく標本平均 m は、正規分布 N(μ、σ2/n) に従う。 (xの標本分布に関する定理) 確率と統計2007 54 定理2(重要) • xが任意の分布(平均=μ,分散=σ2)に従 うとき、大きさ n の無作為標本に基づく標 本平均 m は、 n が無限に大きくなるとき、 正規分布 N(μ、σ2/n) に従う。 (中心極限定理) 確率と統計2007 55 問題1 ある学力テストの得点xは、正規分布 N(160,202)に従うとする。大きさ16 の標本をとり、mの値を求めるとき、 1. mが165を超える確率は? 2. mが150未満となる確率は? 確率と統計2007 56 中心極限定理の利用法 問題1. ある大学の受験生の母集団から無作為に選 んだ1人の受験生の成績を x とする。いま、過 去の経験から x は平均 μ= 2.5、標準偏差s = 0.4であることがわかっているものする。こ のとき、この母集団から 36人の受験生の標 本を採り、標本平均 m を求めるとき、 1. mが2.4未満となる確率は? 2. mが2.4~2.7となる確率は? 確率と統計2007 57 問題1のヒント • 中心極限定理より s=σ/√n =0.4/√36 z=(x-m)/s =(2.4-25)・0.067 = P{m<2.4} =P{z<-1.50}= (標準正規分布表を利用) 次回解説します。 確率と統計2007 58
© Copyright 2024 ExpyDoc