Oの悲劇

2015年4月14日@統計モデリング
(Web公開用)
統計モデリング
第一回
・本講義を履修後にできるようになること
・本講義について
・グループタスクについて
・背景知識の確認
・統計モデリングの応用イメージ
担当:田中冬彦
本講義を履修後に
できるようになること
出典: wikipedia
チャレンジャー号爆発事故 (1/2)
事故の概要
1986年1月28日
チャレンジャー号(スペースシャトル) が打ち上げ直後に爆発
7名の乗組員が犠牲
事後調査でわかったこと
・ブースターについているOリングの破損が直接の原因
・スケジュールの延期や打ち上げ当日の異常な寒波のため, これまで
の発射に比べて低い気温下での打ち上げ
サイオコール社の技術者は、もしリングの温度が12℃以下に
なった場合、気密性を正常に保つだけの柔軟性を有するかを判
断するのに十分なデータを持っていないと論じた
(出典: Wikipedia)
Oリングの破損と気温の関係を統計モデリングで調べる!
チャレンジャー号爆発事故 (2/2)
参考文献
J. J. Faraway: Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric
Regression Models.,
(Texts in Statistical Science), Chapman and Hall/CRC, Boca Raton, 2006.
S. Dalal, E. Fowlkes, and B. Hoadley: Risk analysis of the space shuttle: Pre-Challenger prediction of failure.
J. Amer. Statist. Assoc., vol. 84 (1989), 945-957.
データの説明 (Faraway, Chap.2 )
・1回の打ち上げ : ブースター 2つ; Oリングは1ブースターに3つ = 計6つ
・これまで 23回の打ち上げ
・各打ち上げ後の Oリングの破損数 & 打ち上げ時の気温データ
Oリング破損数と気温の関係 (1/2)
0.8
0.6
0.0
0.2
0.4
Prob of damage
1.0
データ (23回打ち上げ分)
摂氏温度 破損数 破損率
11.7 5 5/6
13.9 1 1/6
14.4 1 1/6
17.2 1 1/6
18.9 0 0
・・・・
25.6 0 0
26.1 0 0
27.2 0 0
線形回帰 (第二回目で復習!)
pi = β 0 + β1 xi + ε i ε i ~ N (0, σ )
2
-5
0
5
10
15
20
Temperature(C)
単純な線形回帰は統計モデルとしては不適切!
25
30
ロジスティック回帰
ロジスティック回帰(第三回目で話すGLMの一種)
→ 確率の予測値は0, 1の間におさまる
 ni  yi
P(Yi = yi ) =   pi (1 − pi ) ni − yi
 yi 
ηi = β 0 + β1 xi1 +  + β q xiq
 p 
ηi = g ( pi ) = log  i 
 1 − pi 
Oリング破損数と気温の関係 (2/2)
 p 
ηi = g ( pi ) = log  i 
 1 − pi 
1.0
0.8
0.6
0.4
0.2
ηi = β 0 + β1 xi
0.0
 6  yi
P(Yi = yi ) =   pi (1 − pi ) 6− yi
 yi 
i = 1,2,,23
Fitted Curve by Logit Regress
Prob of damage
x: 気温(C), y: Oリングの破損数
予測値
-5
0
5
10
15
20
25
Temperature(C)
1.単純な線形回帰に比べるとあてはまりがよい
2.チャレンジャー打ち上げ時の気温(-0.556 C) だと, Oリング6つのすべてが
破損することが予測される
30
本講義について
本講義で扱う内容
統計モデリング
データに対しさまざまな統計モデルを用いて分析, 適切な
モデルを判断して、分析結果を解釈する作業
本講義で扱う内容
専門分野に関係なく, 共通して使える理論や一般的なノウハウの説明
・一般化線形モデル(GLM)
・ベイズモデリング
・スパースモデリング
扱わないこと
他の講義でカバーしている内容
・時系列データの分析
・モデル選択
・多変量解析
・統計数学
ロジスティック回帰
ポアソン回帰
・・・・
(もちろん線形回帰も含まれる)
想定される受講者
統計分析に携わる人
ひとくちに統計手法といっても一冊におさまることはない
Example: Chapman and Hall Texts in Statistical Science Series (60冊!)
→ (専門分野によらない)代表的な手法を知る最初のとっかかり
解析ソフトの安易な利用からの脱却 (誤った使い方でもエラーは出ない!)
→ ソフトが使っている統計モデルを理解しておくことが重要
※深い分析にはデータに関する専門知識が必要(分析者自身の取り組み!)
統計研究室の学生
統計モデリングにおける数理的側面を深く理解するとっかかり
実データへの応用例・適用例を知っておくことが望ましい
グループタスクについて
グループタスク
目的
・データの収集, モデリング手法の検討, 解析プログラムの作成, 結果の
解釈と検討, プレゼン資料作成という一連の流れを体験
・異質な者同士でのコミュニケーション能力を磨く
・グループ内での自分の役割を認識, 協力して目標を達成する経験
グループでやってもらうこと
・データ収集と統計分析の目的設定
・モデリング手法の検討と実装(R推奨)
・分析結果の解釈と検討
・プレゼン資料にまとめて発表 (発表者は一人でよい)
統計分析の現場で
必要な能力
グループタスク
発表スライドに含めるべき内容
・収集したデータの説明と統計分析の目的
・モデリング手法の検討
・実装(R言語)の概要 (スライドにプログラムは記載しない)
・分析結果の解釈と検討
・グループ内の作業分担
評価の観点 (ゲスト審査員を呼ぶかも?)
・ うまくいかなくてもよい(試行錯誤は必要)
・講義で紹介した方法が含まれているか
・グループでの作業分担は適切か、分析結果を全員が理解しているか
・設定した課題の難易度
グループタスク
発表に関するルール
・各グループ 一回発表 (講義第三回あたりに希望を募る)
・発表&質疑応答で20分程度(グループ数との兼ね合い)
・収集データ, 分析に用いたソースコードは教員(田中(冬))に事前送付
・発表者(プレゼンテーター)は一人でよい作業の分担は明示すること
採点方法
・40点満点 (cf) レポート課題 60点)
・グループごとに点数をつける
・グループ内で貢献度が著しく低い・高い個人は補正
グループタスク
日程 (予定)
4/14 (今日): グループ分け
5/26? 第一回テーマ: ベイズモデリング
6/23? 第二回テーマ: 一般化線形モデリング
7/21? 第三回テーマ: スパースモデリング
今年からの試みのため必要に応じてルールは変更します
背景知識の確認
1.統計の基礎的なこと
講義で出てくる確率分布 (1/2)
記法
p( x | θ )
∫
p ( x | θ )dx = 1, p ( x | θ ) ≥ 0
離散の場合には和記号
データ
(確率変数)
パラメータ
∑ p( x | θ ) = 1, p( x | θ ) ≥ 0
x
離散分布
ポアソン分布 x = 0,1,2, 
(
λ )x −λ
p( x | λ ) =
e
x!
二項分布 (n回の試行) x = 0,1,2,  , n
n
p ( x | q ) =  q x (1 − q ) n − x
 x
講義で出てくる確率分布 (2/2)
連続分布(確率密度関数)
2
m
σ
N
(
,
)
平均 m, 分散σ (>0) の正規分布(ガウス 分布)
2
p ( x | m, σ ) =
2
指数分布
p ( x | λ ) = λ e − λx
1
2πσ 2
−
e
1
2σ
2
( x−m)2
x≥0
1
1 x
χ二乗分布 p ( x | t ) =
 
Γ(t / 2) 2  2 
t / 2 −1
e − x / 2 x ≥ 0 t = 1,2, 
a −1
ガンマ分布
1  x  −x /b 1
p ( x | a, b) =
  e
b
Γ(a )  b 
↑指数分布、χ二乗分布を含む広いクラス
x ≥ 0 a > 0, b > 0
Γ(u ) = ∫
∞
0
 x
 
2
u −1
e−x / 2
※多くのテキストに掲載されており正確に覚えておく必要はない
dx
2
線形回帰モデル
Yi = a + bxi + ei
i.i.d.
e1 ,, en ~ N(0, σ 2 )
i = 1,2,  , n
回帰直線のあてはめは基本的な知識
− y )( xi − x )
8
− x )2
6
i =1
i
4
∑ (x
, aˆ := y − bˆx
2
n
0
i =1
i
-2
bˆ :=
∑(y
y
n
0
2
4
6
x
8
参考:統計検定
URL: http://www.toukei-kentei.jp/
統計検定2級相当(学部1年)の知識があると望ましいが・・・
統計以外の受講者の皆さまへ
統計の基礎でわからないことは
同じグループのメンバー(統計関係)に聞こう!
2.統計解析ソフトR
統計解析ソフトR
Rの特徴
・Windows, MAC, Linuxなどで使えるフリーソフト
・統計処理に特化した機能が豊富
・平易なプログラミングで高度な処理が可能
・ビジュアルな図示が簡単
統計解析ソフトR
プログラミング言語としてのR
・オブジェクト指向&コンパイル不要
・配列や繰り返し処理に特化した機能
・大規模な処理は、他言語を呼び出す方法もある
統計解析ソフトR
プログラミング言語としてのR(続)
・乱数の発生が容易
- 標準正規分布 (normal distribution) から乱数を10個発生させる場合
- round(x, n) x の数値を n桁に丸める
・棄却点の計算など統計でよく使う関数がかなり整備
標準正規分布での上側95%点と両側95%点
Rの知識があると望ましいが独力で勉強するのは大変・・・
統計以外の受講者の皆さまへ
Rの基礎でわからないことは
同じグループのメンバー(統計関係)に聞こう!