統計の基礎 第5回 各種統計量 5月27日

統計の基礎
第11回
サンプリング/中心極限定理
7月1日
復習
散らばりの指標
• 標準偏差
s、σ
• 偏差平方の平均の平方根
• 偏差平方=偏差×偏差
偏差平方和=偏差平方の合計
分散=偏差平方和/個数 (偏差平方の平均)
標準偏差=分散の平方根
分布の標準化
• Z値
• Z=(x-m)/s
チェビシェフの不等式
• Sのk倍より外側 1/(k*k) 以下
期待値
• 確率変数と確率の積和
大数の法則
• 標本数(n)を大きくすれば、平均(μ)が一定の
誤差内に収まる確率が1に限りなく近くなる。
確率変数と確率分布
今後の学ぶ課題
• 最もらしい値(点あるいは区間)を推定する
• 確率分布の想定を検定する
正規分布の確率変数と確率分布
• Z値を使い確認
Z値 ←→ 確率分布
• Excelで確認
【時間末レポート】6月24日
A.
B.
C.
D.
E.
F.
平均60点、標準偏差10、得点45点 Z値?
Z値 2.5 右側確率?
Z値 -3 左側確率?
Z値 -2~2 中間確率?
右側確率 0.025 Z値?
中間確率 0.9 Z値の区間?
G. 1,000人が受験した試験で、平均70点、標
準偏差10点の場合、85点の人は、上から何番
目程度と考えられるか。
サンプリング/中心極限定理
【目標】
• 中心極限定理を説明するとともに、標本平均
の標準偏差を求めることができるようになる。
【構成】
1.サンプリング
(1) サンプリングの必要性
(2) ランダムサンプリング
(3) サンプリングの歴史
(4) コホート研究とケース・コントロール研究
2.中心極限定理
(1) サンプル平均とサンプル標準偏差
(2) 中心極限定理
1.サンプリング
(1) サンプルの必要性
○サンプリング論(標本抽出論)
•
母集団を的確に推定するための標本抽出
する方法に関する論理
•
標本から母集団の変数の平均値や標準偏
差値等を推定する
○サンプリングの必要性
• 全数調査(悉皆調査)は経費・時間がかかる
• 抽出調査の実施は、調査の価値と経費
(広義)のバランス
• 悉皆調査の例 国勢調査
○ユニバース(母集団)
• 関心となる対象全体 明確な定義が必要
• 国際大生の意見か日本の大学生の意見か
• マーケティングでは関心者のみがを対象とす
ることもある
○フレーム
•
実際に標本抽出する(できる)対象全体
歪んだ調査意図により
フレームを故意にずらすこともある
関心者(関係者)のみによる調査
道路満足度調査 インターネット調査
森作り税調査 イベント参加者
狭義での調査 ホームレス調査
回収率の配慮
回答拒否者は偏っていないか
○なぜサンプリングで全体像が
• 味噌汁の味
• 風呂の温度
• よくかき混ぜて一部を取り出す
この操作がうまくできるかどうかが問題
(2) ランダム・サンプリング
(無作為抽出法)
○確率論の基礎
• すべての根元事象が同様に選ばれる可能性を
持っていることが前提
• 標本抽出でもこの前提がないと、
確率論を基礎にした統計学が利用できない。
○ランダム性の確保
• 乱数表
• 乱数の検証
必ずしも容易でない
• 乱数表の利用
(3) 歴史
アメリカ大統領選と世論調査
• アメリカ労働省調査
国内人口の10%以下が国民所得の40を占め
ている
商工会議所の非難
労働人口の0.5%以下を対象、しかも無作
為 どうやって証明できるか
川崎市調査 何千サンプル
どうして証明できるかのクレーム 大新聞
神戸市調査 悉皆調査
なぜそこまで必要か
(4)コホート研究と
ケース・コントロール研究
• コホート研究(前向き研究)
調査対象を複数の群に分け、その集団を一定期
間に渡って追跡し、ある疾患の発生など、将来に
おける影響を検討する方法。
• ケース・コントロール研究(後ろ向き調査)
ある疾患の発生があった集団に相当する人々
(ケース群)に対して、性別や年齢等の可能性のあ
る要因をマッチングした対照群(コントロール群)を
設定し、起こっている影響を検討する方法。
2.中心極限定理
(1) サンプル平均とサンプル標準偏差
•
記号法
ユニバースの代表値はギリシャ文字
サンプルの代表値はローマ字
m
S
μ
σ
サンプル標準偏差と
全体集団の標準偏差の違い
• 母集団の平均値に比較して、サンプルの平
均値はサンプル側に偏っており、各偏差は小
さめになる。
分散を求めるには n-1 で除す。
Excelの関数の使い分け
全体(母)集団の場合はPが付く
・標本平均の分布
• 「標本平均」の分布であり、「標本」の分布で
はない!!
(2) 中心極限定理
Excelでのシミュレーション
• 連続分布
• ベルヌーイ試行
【時間末レポート】7月1日
売上平均11万円/日、標準偏差3万円/日の時、
9日間の売上の平均が10万円以下となる確率
はいくらか。