修正版pdf - 美添泰人のホームページ

コンピュータによる統計分析
2014 年度 美添泰人
10/ 7 : 重回帰分析,確率の基礎
Reading Assignment : ips ch.2 pp. 123–130, 146–151, 158–165. 統計入門 IV.2-3
単回帰分析(続き)
参考:統計入門 IV.2,ips chap. 2
(1) ips chap.2: p. 158–171
(2) 回帰分析の基本的な考え方.方向がある:説明変数と従属変数 x =⇒ y
(3) 回帰直線のあてはめ:最小二乗法 (OLS),∑(yi − a − bxi )2 = min!
(4) 回帰の現象,回帰の錯誤:統計学基礎 4.6.2 (p.33–) 「参考資料(受講者のみ)」に下書きを掲
載.統計学基礎 (草稿) 第 4 章.
(5) 回帰の現象・錯誤の例:試験の 1 回目の成績と 2 回目の成績など
(6) 当てはまりの尺度:R, r.
(R, R2 は重回帰で有効な尺度)
(7) 変数変換の手法(1 変数,2 変数)
: Web 「その他の教材」にある「変数の変換」
重回帰分析
統計入門 IV.3
(1) 複数の説明変数:y ← x1 , x2 , · · · x p : (とりあえず線形のモデルを想定)
y = b0 + b1 x1 + b2 x2 + · · · + b p x p + 誤差
説明変数から計算された yˆi = b0 + b1 x1i + b2 x2i + · · · + b p x pi を予測値(推定値),差 ei = yi − yˆi
を残差 (residual) と呼ぶ.
(2) 計算法:∑ e2i = ∑(yi − yˆi )2 = min! (最小二乗法 OLS: Ordinary Least Squares)
(3) 他にも,∑ |ei | = min! (最小絶対値法)や,一般的な方法がある.∑ ρ (ei ) = min!,ρ (x) = x2 ,
ρ (x) = |x|
(4) 当てはまりの尺度:R = corr(y, y)
ˆ 重相関係数 (Multiple Correlation Coefficient)
∑(yˆi − y¯i )2
∑ e2i
=
1
−
の意味:
「説明される変動の割合」
∑(yi − y¯i )2
∑(yi − y¯i )2
(6) 次の話題はこの講義では取り上げない:
「変数の選択」,
「変数の追加と回帰係数の変化」
(5) 決定係数 R2 =
1
コンピュータによる統計分析
2014 年度 美添泰人
事象と確率(定義と簡単な計算,客観確率と主観確率)
Reading Assignment : 統計入門 V.1,V.2
確率の入門
(1) 事象 (event),命題 (proposition),部分集合 (subset);標本空間と根元事象(基本事象 elementary
event)
(2) 和事象 A ∪ B,積事象 A ∩ B (AB とも表す)
(3) 全事象 Ω = {ωi | i ∈ I} (I は添え字の集合),余事象 A;空事象 φ または 0/
(4) 排反事象 (exclusive events).Venn 図
(5) 確率の初等的定義と基本的な性質(公理).PI, PII, PIII
(6) 確率の先見的定義:事象 A1 · · · AN が「同等に確からしいとき」Pr(A1 ) = · · · = Pr(AN ) =
める.
1
と定
N
(7) 経験的確率(頻度論 frequentist),
「同一条件で繰り返し実験可能」の意味
(8) 主観確率(ベイズ統計学)
(9) 条件付確率,独立性:
(数学的な定義は無意味であることに注意.Kolmogorov)
(10) 乗法公式とその応用:Pr(A ∩ B) = Pr(A) · Pr(B | A) = Pr(B) · Pr(A | B)
(11) ベイズの定理.確率的独立性の意味(A の持つ情報と B の持つ情報)
(12) 箱の中のカード:赤 (R: r 枚) と黒 (B: b 枚) があるとき,元に戻さずに抜き出す問題. Pr(R2 | R1 )
は? Pr(R1 | R2 ) は?
基礎的な事項
(1) 階乗 r! = 1 · 2 · · · r,べき乗 nr に対して,r 個の階差の積 n(n − 1) · · · (n − r + 1) を nr や n(r) と書
くことがある.
(2) 順列 n Pr = n(n − 1) · · · (n − r + 1) =
n!
= nr
(n − r)!
( )
n
n!
(3) 組合せ
= nCr =
.nCr × r! = n Pr という関係の理解.
r
r!(n − r)!
(4) 二項定理 (x + y)n =
n
∑ nCx xr yn−r およびパスカルの三角形 n+1Cr+1 = nCr + nCr+1 .
r=0
いくつかの例と練習問題
(教室での演習または自由課題)
1. つぼのモデル:非復元抽出,復元抽出の例
2. ベイズの定理の応用例:病気の診断,3つの箱,2枚のコイン
3. 歪んだコインで表が出る事象を A (Pr(A) = p, 0 < p < 1) とする.コインを投げ続けて,r 回
目に初めて表が出る確率はいくらか.
4. A, B, C のいずれかとなる実験を繰り返すとき,事象 B が出る前に事象 A が出る確率はいく
らか.ただし Pr(A) = a, Pr(B) = b, Pr(C) = c とする (a + b + c = 1).
(条件付きで考えれば容易,そうでないと難問)
2
コンピュータによる演習
(1) 散布図の描き方(phys.R の後半)
(2) 相関係数の計算と読み方 corr_and_normal.R
(3) bacteria.R による練習(散布図,相関係数,単回帰,変数変換)
(4) 散布図を作成し,相関係数を求める.
(5) 散布図を作成し,単回帰分析を実施する(出力の読み方を学習する).
(6) 変数変換と線形性 : bacteria (bacteria.R, bacteria.txt ), cars など
(7) R の関数 (function) の利用
(8) 関数を利用して,ヒストグラムと歪度を比較する.fn_skew.R による練習
(9) データの入力方法,変数の指定,その他
(10) 変数変換と対称性(1 変数): 経済変数(所得,資産など)
(11) 回帰直線のあてはめと解釈.外れ値についての注意
(12) 変数変換と線形性(2 変数) : bacteria, cars など
3