PDFファイル - 講義用WWWサーバ

基礎統計
第1回講義資料(2015年度)
安藤雅和
補講の案内
• 初回(4/6)の補講日を 7/17(金) 1限としました。
カール・ピアソン
(Karl Pearson,1851-1936)
• イギリスの数理統計学者.
近代統計学の数理的基礎を築く.
「母集団」の萌芽.
2
「相関係数」, 統計量の導入.
統計学は
「科学の文法」
The Grammar of Science
である.
統計学とは?
• 統計学(英 statistics)
• もともとは 国家(Staat, [英] State)の状態を把握するために,収集した
情報を集計・加工して記述したもの ⇒ いわゆる “統計” のこと
• 現象の法則性を探りたい
すべてを丹念に調べて,規則性から法則を見出す.
⇒ “記述統計学”
一部を観察して,論理性のある推測で全体の法則性を発見する.
⇒ “推測統計学”
様々な分野における現象の法則性の探求が統計学を生み出し
たといえる
実践からうまれた統計学
• ゲームのテーブルから起こった確率論
• 常備軍や国家財政上の必要性から起った国家状態の統計
• 古代地中海貿易での、難破事故や海上掠奪に対する海上保険
•
•
•
•
•
•
•
の計算
17世紀のペスト禍を機とする近代死亡率表の研究
天文観測で生じる観測誤差の理論
生物等で生じる諸量の相関関係の理論
農学で実験を計画するための理論
経済学や気象学における時系列の理論
心理学における要因分析やランキングの理論
2

社会学における
(カイ二乗)統計量の方法
確率論の起源
• 数学的研究が始まったのは,パスカル(1623-1662)とフェル
マー(1601-1665)の1654年の往復書簡によって始まったとい
う説がある。
• 往復書簡とは,シュヴァリエ・ド・メレ(1610-1684)が賭け事に関する2
つの問題をパスカルに問いかけたというものであった.
• シュヴァリエ・ド・メレの問題
A) サイコロを4回振って6の目が1回以上出る確率
B) 2つのサイコロを24回振って6のゾロ目が1回以上出る確率
同じ確率?
それとも、どちらが大きい?
モーリス.ケンドール
(Maurice Kendall, 1907-1983)
• イギリスの統計学者
• ケンドールの順位相関係数
(タウ統計量)として有名.
今日,「統計理論」の考え方の太い流れは,(途中省略)
多くの分野からの小さな支流が集まって,2世紀以上も
かかって合流し,一つの流れになったものである.
近代統計学の成立
• ぺティ
• アッヘンヴァル
• ラプラス
• ガウス
• ケトレー
• ゴルトン
• カール・ピアソン
• ゴセット
• フィッシャー
• ワルド
社会経済現象の数量的観察
国勢学派.統計調査(官庁統計).
古典確率論・近代確率論
誤差理論・正規分布,最小二乗法
大量観察と統計的法則性.「平均」の概念
遺伝学の数理的理論.「回帰」の導入.
近代統計学の数理的基礎.
t分布の導入.小標本論.
統計的推測理論の確立.標本分布論.
統計的決定理論
フランシス・ゴルトン
(Sir Francis Galton,1822-1911)
• イギリスの人類学者,統計学者,
遺伝学者.
• 遺伝学の数理的理論.「回帰」の
導入.「相関係数」の概念
18
17.5
17
表1 スイ-ト・ピーの種子の直径に見ら
れる、平均への「回帰」の傾向
16.5
16
親(x)
15.5
15
子(y) 15.3
15
15
17
19
21
23
16
17
18
16 15.6 16.3
19
20
21
16 17.3 17.5
x(1/100)イン
チ
〃
表2
ゴルトンによる身長と上腕の長さの相関データ
上腕の長
さ
身長 x (インチ)
y (インチ)
59- 60- 61- 62- 63- 64- 65- 66- 67- 68- 69- 70- 71- 72- 73- 7460 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
21.0-21.5
20.5-21.0
1
1
20.0-20.5
19.5-20.0
2
19.0-19.5
18.5-19.0
1
18.0-18.5
17.5-18.0
1
1
2
1
1
1
2
2
4
6
11
8
4
2
5
1
38
2
6
8
7
15
13
2
1
55
3
8
15
28
14
25
5
2
2
102
1
1
2
1
2
12
18
15
7
2
61
17.0-17.5
1
3
6
11
10
7
7
3
1
49
16.5-17.0
1
5
6
5
4
1
1
1
1
25
16.0-16.5
15.5-16.0
1
1
1
1
3
2
1
2
3
13
16
8
1
21
36
47
61
38
50
30
15
9
4
2
348
統計学が関わる諸分野
ビジネス
経営分析
ファイナンス
人文科学
医療と医薬
環境
臨床試験
疫学
製薬
遺伝学
森林破壊
自然保護
農業
野生動物保護
マーケティング
自然科学
社会科学
地震
気象
物理
化学
経済
社会
犯罪
文化計量学
行政
政府統計
行政評価
情報公開
これから学ぶこと
• 全てを丹念に調べ,規則性から法則を見出す
⇒
全体(集団)の法則性を調べること.
全数調査. 例:国勢調査
⇒ 収集したデータを,集計・加工し,記述する方法
記述統計
• 一部を観察して,そこから論理性のある推論で全体の法則性
を発見する.
⇒ 無作為抽出により標本を抽出し,標本特性から
可能なすべての潜在的観測値の集合(母集団)の
特性を推測する. 例:選挙の出口調査
⇒ 「確率論」に基づく統計的推測,あるいは推測統計,
統計解析
確率論の起源
• 数学的研究が始まったのは,パスカル(1623-1662)とフェル
マー(1601-1665)の1654年の往復書簡によって始まったとい
う説がある。
• 往復書簡とは,シュヴァリエ・ド・メレ(1610-1684)が賭け事に関する2
つの問題をパスカルに問いかけたというものであった.
• シュヴァリエ・ド・メレの問題
A) サイコロを4回振って6の目が1回以上出る確率
B) 2つのサイコロを24回振って6のゾロ目が1回以上出る確率
同じ確率?
それとも、どちらが大きい?
シュバリエ・ド・メレの問題
A:サイコロ4回投げて,少なくとも1回6の目が出る
5
1−
6
4
625
671
=1−
=
= 0.518 > 0.5
1296 1296
B:2個のサイコロを24回投げて,少なくとも1回ダブル6が出る
35
1−
36
24
= 1 − 0.5086 = 0.4914 < 0.5
統計解析とは
• 統計解析とは、標本(データ)の情報から母集団の性質につい
て推論することである。
• 母集団:調査対象全体
• 標本:調査のために母集団から抽出されたデータ
標本
無作為抽出
統計的推測
母集団
確率モデル
標本
テキスト p197 参照
母集団
無作為抽出
統計的推測
モデル化
確率変数
統計量
i.i.d
確率分布
統計的推測
パラメータ
講義概要
• 統計学
• データを計測⇒集計・加工(統計数値・グラフなど)
⇒データの持つ特性を記述する⇒ 記述統計学
• データは“ばらつく”⇒統計数値も“ばらつく”
⇒不確実性⇒
確率論
• データ(標本)⇒現象の背後にある集団(母集団)
の特性を推測する⇒ 統計的推測
(目的)統計的なものの考え方,統計手法の基礎を学ぶこと
テキスト
• 『入門統計解析』
倉田博史・星野崇宏,
新世社,2009.
(2500円+税)
講義内容
 1次元データの整理・要約
 2次元データの整理・要約
 確率
 確率変数と確率分布
 独立同一分布




統計量
標本分布
統計的推定
統計的検定論
記述統計学
確率論の基礎
統計的推測
(数理統計学)
参考図書
 『統計学入門』
東京大学教養学部統計学教室編,
東京大学出版会,1991.
 『人文・社会科学の統計学』
『自然科学の統計学』
東京大学出版会, 1992.
『統計学が最強の学問である』
西村啓
講義資料
• スライド資料
http://lecture.ecc.u-tokyo.ac.jp/~candoma/
「基礎統計(’15)」にアクセスすると
講義資料(PDFファイル)が閲覧できます.
– 文字化けする場合
「表示」-「テキストエンコーディング」-「日本語(EUC)」
学内のPC端末からアクセスするには…
情報教育棟にあるPC端末で Safari を起動すると…
「講義用WWWサーバ」
をクリック
「安藤先生:(養)」
をクリック
評価
• レポート(2回)
• 6月上旬・下旬ごろ出題予定
• 定期試験
高校で学んだ「確率・統計」との違い
(東北大学・服部哲弥先生のコメントから引用)
• 高校で「確率・統計」を学ばれた方は,講義の半分は学習済みと
いえる.
• 残り半分が,高校の教科書では深入りできなかったところを学ぶ.
例えば,
• データの統計処理に確率論がなぜ,どのように関わるのか.
• データを集める際の無作為抽出は,確率変数の独立性を用いた確率論の数学
的議論が適用できることを保証すること.
• 信頼区間の意味.
• 信頼水準99%の信頼区間と言っても,その区間に母数が入る確率が99%とい
う意味ではない.
など
ここで学ぶ意義
どの分野に進んでも当然知っているべき共通
の基礎事項だから
数理統計学
• 誤差を伴うデータを根拠として自然法則を導
いたり社会学的に有効な意思決定を行うこと
を,数学を用いることで支援する方法論
統計データと統計手法
• データのタイプ分け(測定の尺度、テキストp4)
名義尺度
性別、学歴、天気、居住
地域
順序尺度
成績(優・良・可・不可)、
住みやすさの良し悪し
質的データ
対象のカテゴリー
や状態のみがわ
かるもの
間隔尺度
温度(℃、℉)、時刻
量的データ
データが定量的
な値で与えられ
るもの
比尺度
身長、体重
• 観測項目(変数)の数による違い
• 1次元データ:
身長
• 2次元データ: 身長と体重
• 3次元データ: 身長と体重と性別
• 時間依存の有無による違い
• 時系列データ:株価データ,ある生徒の高校3年間の身体測定データ
• クロス・セクション・データ:ある年の1クラス全員の身体測定データ
• パネルデータ:1クラス全員の高校3年間の身体測定データ
統計データの分析プロセス
仮説
データ
収集
分析
• 何を対象にどのようなことを分析するのか
• 分析を行うべき仮説を考える
• 分析に必要なデータを集める
• 存在しない場合は自らデータを獲得する(実験, 調査)
• データの特性や目的にあった統計手法を用いる
• 結果の解釈と適切な表現方法の選択
フローレンス・ナイティンゲール
(Florence Nightingale,1820-1910)
• イギリスの看護師,統計学者,看護教
育学者.
• クリミア戦争時代,スクタリの英国陸
軍病院において,着任当時,病気の
兵士の死亡率が40%を超えていた
が,病院の衛生状態を改善すること
で,半年後には2%にまで減少させ
た.
• 病院で死亡した兵士の数を死亡原
因別にグラフにまとめることで,戦傷
よりも病院内での病気に起因する死
亡のほうが多いことを明らかにした.
データの収集
• 実験(自然科学)や調査(社会科学)により得られたデータ
⇒ 生データ
• 実験や調査が大規模な場合,行政機関・研究機関・調査
会社等が行った調査結果を統計データとして利用する
⇒ 統計資料
統計データの定義に注意.
統計資料(官庁統計)
 一次統計
 第1義統計
 統計データを収集ないしは作成する目的で官庁が調査(統計調査)を
行い,その結果を集計し公表するもの
 例: 国勢(こくせい)調査,事業所・企業統計調査など
 第2義統計(業務統計)
 行政上の届出・登録・報告や営業報告などを集計して得られる統計
データのこと
 例: 住民基本台帳人口移動報告,法務・犯罪統計,貿易統計,
税務統計など
 二次統計(加工統計)
 既存の統計資料を加工して作成された統計資料
 例: 国民経済計算(SNA),消費者物価指数,卸売物価指数
総務省・統計局センター URL: http://www.stat.go.jp
統計分析
• 統計手法の選択
データの特性、分析の目的に合った手法を選ぶ
• データ処理
表計算ソフトExcel、統計パッケージ(R, S-PLUS, JMP,
Matlab, SPSS, STATA)などの活用
• 分析結果の解釈と適切な結果の表示
次回の講義内容(4/27)
• 第2章:1次元データの整理
• 度数分布表・ヒストグラム
• データ分布の中心の指標
• 平均・メディアン(中央値)・最頻値
• データ分布の散らばりの指標
• 分散・標準偏差
• レンジ・四分位偏差
• データ分布の形状の指標
• 歪度・尖度