データ分析入門(12) 第12章 単回帰分析 廣野元久 1 本章の概要 2つの量的データのばらつき方に直線的な傾向が 見とめられる場合には,その傾向線(回帰直線)を, データから求めよう 回帰直線が計算できれば,その関係を利用して,因 果関係の検証や将来の予測を行ってみよう JMP INを使って散布図に回帰直線を描画する方 法や,その解釈を理解する 第12章 単回帰分析 廣野元久 高橋行雄 2/25 1.回帰分析 1.1 回帰分析とは 1.2 単回帰分析と重回帰分析 1.3 回帰係数の求め方 1.4 決定係数 1.5 回帰係数の有意性の検定 1.6 回帰分析の利用法 第12章 単回帰分析 廣野元久 高橋行雄 3/25 1.1回帰分析とは(1) 回帰分析とは 因果を持つ2つの量的データの直線的関係を 表す,直線の方程式を求めること 町の人口とごみ排出量 一人当りのごみ排出量がほぼ同じなら,人口が増え れば,それだけごみ排出量は増えるであろう. この関係を式(直線)で表せれば, 将来の町の人口が分かれば,町のごみ排出量が 直ちに,推定され,市政に役立つであろう 第12章 単回帰分析 廣野元久 高橋行雄 4/25 1.1回帰分析とは(2) 原因に左右されて 結果として,ばらつく変量 回帰直線 被説明 変量 or 従属 変量 ƒSƒ~Žû W—Ê lŒû‚ƃSƒ~Žû W—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW 150000 100000 原因となる 変量 Œú–Ø 50000 0 0 100000 300000 l Œû ’¼ ü‚Ì‚ ‚Ä‚Í‚ß 第12章 単回帰分析 廣野元久 高橋行雄 500000 説明変量 or 独立変量 X 5/25 1.1回帰分析とは(3) y Regression Line データ共通の傾向 Normal Distribution データ固有のばらつき(誤差) x 第12章 単回帰分析 廣野元久 高橋行雄 6/25 1.2 単回帰分析と重回帰分析(1) 単回帰分析 残差 ε 結果 Y 原因 X 単回帰式 ごみ排出量 人口 Y a bX 定数項 誤差項 回帰係数 傾き 第12章 単回帰分析 廣野元久 高橋行雄 7/25 1.2 単回帰分析と重回帰分析(2) 重回帰分析 (原因がたくさんあるという意味) 残差 ε 結果 Y 原因1 X1 原因2 X2 Y a b1 X1 b2 X2 結果;ごみ排出量 原因;人口 商店の数 リサイクルの取組み 事業所数 etc…. 原因p Xp bp X p 第12章 単回帰分析 廣野元久 高橋行雄 8/25 1.3 回帰係数の求め方(1) S 95% 信頼楕円 Smin β0 a b β1 最小2乗法のイメージ 要因Xと特性Yについて, n 個のデータ対が得られ, 要因xi (i=1,2,…,n)と 特性 yi(i=1,2,…,n)の間に 一次関係があると仮定する. yi 0 1 xi i 式の未知数 0 , 1 は, yi とその推定値yi との差が 全体としてできるだけ 小さくなるように決める. S yi yˆi min 第12章 単回帰分析 廣野元久 高橋行雄 2 9/25 1.3 回帰係数の求め方(2) y 回帰直線 y 残差は,垂直方向最小 めのこ 残差は,直線の方向最小 x x 回帰直線はめのこで引いてはいけない 第12章 単回帰分析 廣野元久 高橋行雄 10/25 1.4 決定係数(1) 従属変数Yの平方和Sは,回帰で説明できる 部分と,回帰では説明できない部分に分解 できる. 決定係数は,従属変数Yの平方和のうち,回 帰で説明できる平方和の割合を示すもの 回帰で説明がつく 平方和 SR 決定係数R 従属変量Yの平方和 ST 2 第12章 単回帰分析 廣野元久 高橋行雄 11/25 1.4 決定係数(2) y + = Ave. 従属変数Yの平方和 回帰の平方和 残差平方和 傾きがない: 説明力0=0 R2 1=残差がゼロ: 点は直線上にある 第12章 単回帰分析 廣野元久 高橋行雄 12/25 1.5 回帰係数の有意性の検定 傾きbの検定 帰無仮説Ho:回帰直線の傾きは0である b=0 (説明変量xに,従属変数yを説明する力はない xとyは無関係) 対立仮説H1:回帰直線の傾きは0でない b=0 帰無仮説が棄却された:回帰直線はYのばらつきを 説明するのに有効 帰無仮説が棄却できない:回帰直線はYのばらつきを 説明のに有効でない 第12章 単回帰分析 廣野元久 高橋行雄 他の変量を 探索 13/25 1.6 回帰分析の利用法 因果の確認 知識経験として,因果が想定される2変量が,実際に因果 があるかどうかをデータから判断できる 金属の抵抗値は,周辺の温度に依存する 予測 回帰式が有効なら,それを予測に用いることができる 周辺温度が100℃のときの抵抗値を予測できる 制御 説明変量をある値に固定すると,従属変動のばらつきは 小さくなり,平均値も目的の値に留めることができる 抵抗値が100Ωになるように,周辺温度を50℃に制御 する(工場の製品管理などに使われる) 第12章 単回帰分析 廣野元久 高橋行雄 14/25 2 単回帰分析の操作 2.1 単回帰分析の操作 2.2 回帰分析の結果の書き方 2.3 信頼区間曲線の表示 2.4 残差の分析 第12章 単回帰分析 廣野元久 高橋行雄 15/25 2.1 単回帰分析の操作(1) 廃棄物処理.jmpをロードする 第12章 単回帰分析 廣野元久 高橋行雄 ここをクリック 16/25 2.1 単回帰分析の操作(2) 1.人口をクリック 2.Xをクリック 6.ゴミ収集量の 役割が決まる 7.OKボタンを押す 3.人口の 役割が決まる 4.ゴミ収集量をクリック 5.Yをクリック 第12章 単回帰分析 廣野元久 高橋行雄 17/25 2.1 単回帰分析の操作(3) 1.人口とゴミ収集量の 散布図が表示される 2.ここをクリックする 3.直線のあてはめをクリックする ƒSƒ~Žû W—Ê lŒû‚ƃSƒ~Žû W—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW 4.回帰直線 が表示 される 150000 100000 Œú–Ø 50000 0 0 100000 300000 500000 lŒû ’¼ ü‚Ì‚ ‚Ä‚Í‚ß 第12章 単回帰分析 廣野元久 高橋行雄 18/25 2.1 単回帰分析の操作(4) 回帰式 ’¼ ü‚Ì‚ ‚Ä‚Í‚ß ƒSƒ~Žû W—Ê = 4811.3843 + 0.2998754 lŒû ‚ ‚Ä‚Í‚ß‚Ì—v–ñ R2 æ 0.96675 Ž©—R“x’² ®R2 æ 0.964375 Œë ·‚Ì•W €•Î ·(RMSE) 7598.027 Y‚Ì•½‹Ï 58831.5 ƒIƒuƒUƒx [ƒVƒ‡ƒ“(‚Ü‚½‚Í d‚Ý‚Ì ‡Œv) 16 •ªŽU•ª Í —vˆö Ž©—R“x •½•û˜a •½‹Ï•½•û F’l ƒ‚ƒfƒ‹ 1 2.3499e+10 2.3499e10 407.0500 Œë · 14 808220268 57730019 p’l(Prob>F) ‘S‘Ì( C ³ Ï‚Ý) 15 2.43072e10 <.0001 ƒpƒ‰ƒ [ƒ^ „’è’l € „ ’è’l •W €Œë · t’l p’l(Prob>|t|) Ø•Ð 4811.3843 3282.865 1.47 0.1649 切片 lŒû 0.2998754 0.014863 20.18 <.0001 人口1人増加すると ごみは0.29988t増加する 決定係数R2 標準誤差 回帰で説明できない 残差の標準偏差 回帰係数の検定結果 回帰係数 :定数項 人口:傾き 傾きのp値が<.0001と 非常に小さいので高度に有意 回帰直線は意味がある 第12章 単回帰分析 廣野元久 高橋行雄 19/25 2.2 回帰分析の結果の書き方 書き落としてはいけないこと 回帰式 回帰係数のt値(あるいは,標準誤差) 決定係数 標準誤差 ゴミ 収集量 4811.38 0.29988人口 t値 1.47 20.18 R2 0.967 第12章 単回帰分析 廣野元久 高橋行雄 S.E. 7598 20/25 2.3 信頼区間曲線の表示(1) 1.直線のあてはめの▼マークをクリック ƒSƒ~Žû W—Ê 2.回帰の信頼区間をクリック 150000 100000 Œú–Ø 50000 0 0 100000 300000 500000 lŒû 第12章 単回帰分析 廣野元久 高橋行雄 3.95%の信頼区間 曲線が表示される 21/25 2.3 信頼区間曲線の表示(2) 1.ここをクリック 2.平均のあてはめをクリック 3.Yの標本平均が表示される ƒSƒ~Žû W—Ê lŒû‚ƃSƒ~Žû W—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW 150000 100000 標本平均の線の全域が 信頼区間曲線内に含ま れるとき Œú–Ø 50000 0 0 100000 300000 500000 lŒû ’¼ ü‚Ì‚ ‚Ä‚Í‚ß •½‹Ï‚Ì‚ ‚Ä‚Í‚ß 第12章 単回帰分析 廣野元久 高橋行雄 回帰の傾きは 有意ではない 22/25 2.4 残差の分析(1) 目的 回帰モデル(回帰直線)がデータによく当てはまってい るかどうかのチェックを行う 1.ここをクリック 2.残差プロットをクリック 3.残差プロットが表示される Žc · 20000 15000 10000 5000 0 -5000 -10000 Œú–Ø 0 100000 200000 300000 400000 500000 lŒû ラベルで 外れ値を 表示 良いモデルは 残差のプロットはランダムである 第12章 単回帰分析 廣野元久 高橋行雄 23/25 2.4 残差の分析(2) 外れ値の特徴を調べる データの背後にある知識を活用して,外れ値の 特徴を調べる この例では 厚木,大和,小田原,鎌倉 ホテルや 歓楽街 観光地 第12章 単回帰分析 廣野元久 高橋行雄 観光客などが多い ごみを出す人口に カウントされていない 24/25 2.4 残差の分析(3) 系列相関 時系列データの場合には,残差に波状の系列 相関が現れることがある 自己相関モデルを追加するなどの特殊なテクニッ クが必要 不等分散 残差が説明変量の値に従い大きくなる 対数変換や2次項の追加などの変数変換が必要 第12章 単回帰分析 廣野元久 高橋行雄 25/25
© Copyright 2025 ExpyDoc