経営系データ解析 回帰分析 散布図に直線を当てはめる 回帰直線の式 yi = b0 + b1 x1i + ... + bn xni + ei 従属変数 または 被説明変数 目的変数 参考URL: 定数項 (偏)回帰係数 独立変数 または 説明変数 誤差変数 誤差項 回帰分析の基礎理論: http://www.sci.kagoshima-u.ac.jp/~itls/Japanese/chapter5/index.html 回帰直線の選び方 y= 39.065183 - 0.6449298*x 平成18年時の6歳から17歳までの男女の平均身長・体重 最小2乗法 ` 残差平方和の最小となる式 →実測値と予測値の平方和が最小 ` 値を2乗する →符号をあわせる為 →絶対値は扱いが複雑 →大きい残差はより大きく強調 →大きな残差を排除できる yi = b0 + b1 x1i + ei 式の推定 weight(kg) height(mm) 1 30.4 14.5 2 26.5 17.1 3 29.2 16.5 4 29.5 15.5 5 25.9 16.6 6 29.6 18.8 7 26.2 19.1 8 28.1 17.5 9 31.1 14.6 10 26.9 16.1 平均 28.34 16.63 分散 3.50 2.45 偏差積和 共分散 b1 = = 説明変数の平方和 説明変数の分散 偏差積和:平均との差を掛け合わせた結果の合計 - 14.20 - 1.58 b1 = = = -0.6449298 22.02 2.45 yi = b0 + b1 x1i + ei 式の推定 weight(kg) height(mm) 1 30.4 14.5 2 26.5 17.1 3 29.2 16.5 4 29.5 15.5 5 25.9 16.6 6 29.6 18.8 7 26.2 19.1 8 28.1 17.5 9 31.1 14.6 10 26.9 16.1 平均 28.34 16.63 分散 3.50 2.45 b0 = yi − b1 x1i − ei b1 = -0.6449298, xi = 16.63, yi = 28.34 b0 = 28.34 − 0.6449298 ×16.63 b0 = 39.065183 y = 39.065183 - 0.6449298 x 単回帰分析 推定された式 寄与率、決定係数 R2 = 推定の偏差平方和 目的変数の偏差平方和 推定の偏差平方和 誤差の平方和 目的変数の偏差平方和 回帰式の有意性の検定F検定とt検定 p値が0.05および0.01より 小さいかどうか? t値=推定値に対する標準誤差の比 重回帰分析の手順 ①データ入力 ②変数の選択と散布図行列の表示 分析→多変量→多変量の相関 (Y,列に相関関係を見たい変数名を割り当てる) (Byに変数を割り当てるとその変数で層別の散布図行列が作成される。) ③散布図を動かしてみる(外れ値の有無や相関関係の確認) ツール→手のひらツール 重回帰分析の手順 ④変数の選択と重回帰分析の実行 分析→モデルのあてはめ 1)被説明変数(従属変数)を「役割変数の選択」のYに割り当てる。 2)説明変数(独立変数)を「モデル効果の構成」に追加で指定する。 3)手法を「標準最小2乗」に設定して、「モデルの実行」をクリックする。 ⑤結果の解釈 1)自由度調整R2乗 2)分散分析のp値(モデルのF検定) 3)パラメータ推定値のp値の列(偏回帰係数のt検定) 重回帰分析の手順 ⑥残差の分析 1)応答Yのプルダウンメニューの「列の保存」→スチューデント化 された残差を選択 2)データテーブルにスチューデント化された残差が記録されるの で、このスチューデント化された残差と各説明変数との間の無 相関を散布図から確認する。 最小2乗法によるモデルのあてはめの前提 1)誤差項が各ケースで独立 2)誤差項は平均が0で分散は一定 3)誤差項は正規分布に従う 95%信頼区間と平均線の表示 図示した95%信頼区間の曲線が 平均線と交わっているかどうかで、 5%有意水準での回帰式の有意性 の検定を視覚的に行うことができる。 残差分析 •残差分析(残差=観測値-予測値) •残差をプロットすることにより、 ①外れ値や異常値のチェックおよびこれによる隠 された要因の検討 ②点の並び方のクセやトレンドから誤差の等分散 性や系列相関、さらに非線形性のチェック 1)残差のヒストグラムから正規分布にしたがっ ているといえるか? 2)残差の+と-の符号の数は同数か? 3)残差の中央値はゼロに近いか? 4)残差と目的変数および説明変数との間の散 布図から何らかの関係が見つからないか? を検討する。 •ダービン・ワトソン比:時系列データの自己相関の チェックに。2を中心に0から4までの値を取る。 三次元散布図 三次元散布図 3次元表示で視覚的に確認 旧称は回転プロット 手のひらツールで回転させる。 Shift Alt の各キーを押しながら Ctrl モデルのあてはめ 被説明変数 目的変数 従属変数 説明変数 決定変数 独立変数 あてはめ結果の解釈 ①自由度調整R2乗 (自由度調整済み決定係数) ②分散分析表によるF検定 (帰無仮説:回帰式は意味をもたない。 (切片を除く全ての回帰パラメータが0である。)) ③偏回帰係数のt検定 (帰無仮説:真のパラメータはゼロである。) ④偏回帰係数の推定値の符号 残差分析 効果の検定は、連続量の説明変数の 場合にはt検定と同じ。 残差分析 製造条件をチェック 他の要因はないか? 残差と変数との関係 スチューデント化された残差: i番目の残差について、i番目の 残差を除いた他の残りの残差か ら計算された残差の標準偏差を 用いて基準化した残差。外的に スチューデント化された残差とも 言う。単に全残差の標準偏差で 基準化された残差を標準化残 差あるいは内的にスチューデン ト化された残差と言う。 残差と各説明変数との間の関係 スチューデント化された残差と説明変数との 間に何の関係も見られないことが望ましい。 てこ比プロット 個々の偏回帰係数の有意性に関して、5%有意水準で視覚的に判定できる。 標準偏回帰係数 •目的変数と説明変数のそれぞれの データを標準化してデータテーブルに保 存。 •この標準化されたデータを用いて重回 帰分析を行うと、得られる偏回帰係数は、 ある説明変数が1標準偏差分だけ変化 したとき、目的変数は何標準偏差分だ け変化するかを示すことになり、説明変 数のスケール値やバラツキの大小には 依存しないようにして、各説明変数の目 的変数への影響度の比較を行うことが できるようになる。 •このようにして得られる偏回帰係数を 標準偏回帰係数と呼ぶ。 標準偏回帰係数の推定 重回帰分析演習(1) •酸度の変数を追加して収率の変動を説明するモデルを構築せよ。 バッチ番号 y:収率(%) x1:圧力(気圧) x2:温度(℃) x3:酸度(pH) 1 30.4 14.5 87.6 7.5 2 26.5 17.1 89.3 6.9 3 29.2 16.5 92.3 7.2 4 29.5 15.5 89.2 7.4 5 25.9 16.6 87 6.5 6 29.6 18.8 91.6 8.2 7 26.2 19.1 90 7.3 8 28.1 17.5 91.5 7.8 9 31.1 14.6 89.7 7 10 26.9 16.1 90.5 6.7 相関分析 偏相関係数 他の変数の影響を取り除いた純粋な目的 変数と1つの説明変数との間の相関の程 度を表す尺度。目的変数と説明変数を残り の説明変数で回帰式にあてはめ、それぞ れの残差から求められる相関係数のこと。 結果の解釈 ①自由度調整R2乗(自由度調整済み決定係数) ②分散分析表によるF検定 ③偏回帰係数のt検定 ④偏回帰係数の推定値の符号 重相関分析演習(2) •粘度が追加された以下のデータを用いて収率を説明するモデルを作成せよ。 バッチ番号 y:収率(%) x1:圧力(気圧) x2:温度(℃) x3:酸度(pH) x4:粘度 1 30.4 14.5 87.6 7.5 6.2 2 26.5 17.1 89.3 6.9 5.5 3 29.2 16.5 92.3 7.2 5.7 4 29.5 15.5 89.2 7.4 6.1 5 25.9 16.6 87 6.5 5 6 29.6 18.8 91.6 8.2 5.9 7 26.2 19.1 90 7.3 5 8 28.1 17.5 91.5 7.8 5.7 9 31.1 14.6 89.7 7 6.4 10 26.9 16.1 90.5 6.7 5.2 相関分析と相関・偏相関係数 結果の解釈 偏回帰係数のt検定結果と偏回帰係数の推定値は どのように変化しただろうか? 偽相関 •同じ説明変数を用いた、収率を目的変数 とした重回帰分析の結果と比較してみよ。 •粘度は収率を説明する原因系の変数で はなく、収率と同様に圧力と温度と酸度で 説明される結果系の変数ではないか。 •収率と粘度との間の高い単相関は、互い に共通した説明要因に起因する偽相関で ある可能性が強いようだ。 説明変数の選択 •PrincipleofParsimony(ケチの原則) 目的変数の予測という立場からは、説明変数の数が増えるほど寄与 率は高くなるが、あまり寄与率は下げないで、なるべく少数の説明変数 で、簡潔にモデルを記述したいという考え方。 •有効な変数と不要な変数を選択して、最適な回帰式を求めるには? •変数選択の方法 ①総当り法 ②ステップワイズ法(逐次変数選択法) 1)変数増加法 2)変数減少法 3)変数増減法 4)変数減増法 ③対話型変数選択法 ステップワイズ法による変数選択 説明変数の選択方法の選択 •方向で選択方法を選択 •SSE:誤差平方和 •DFE:誤差の自由度 •MSE:平均平方誤差 •Cp:MallowのCp基準 •AIC:赤池の情報量基準 AIC=nln(SSE/n)+2p AICが最小であるモデルが 最良のモデル。 •経験的にF値が2以上であれば有 効な変数、2未満であれば不要な 変数とされている。 ステップワイズ法の結果 多重共線性 •説明変数の中に互いに非常に相関の高い変数が含まれているときに起こ る現象 •発生する問題 ①偏回帰係数を求めるとき、大きな計算誤差を伴うか、あるいは計算不能になっ てしまう。 ②求められた偏回帰係数が、1つのオブザベーションの追加や、ちょっとした誤差 によって、大きく変化してしまう。 ③求められた偏回帰係数の符号が単相関係数の符号と合わない。 ④寄与率(決定係数)は高いのに、個々の偏回帰係数は統計的に有意にならな い。 •対策 ①互いに関係をもった説明変数の一部を除去する。 ②多重共線性を弱めるようなデータを追加する。 多重共線性の例 •以下のデータを用いて重回帰分析を行ってみなさい。 (内田他、『すぐわかるJMPによる多変量解析』、東京図書、2002年より) バッチ番号 y 1 2 3 4 5 6 7 8 9 10 x1 30 32 30 33 30 35 35 37 37 39 x2 10 12 14 16 18 20 22 24 26 28 x3 20 24 28 32 36 40 44 48 52 56 15 17 19 19 22 24 24 25 25 26 質的変数を含んだ重回帰分析 •これまでのデータには、AとBの異なる原産地からの原料が含まれていることが わかった。原料の情報を新たな説明変数に加えて重回帰分析を試みよ。 バッチ番号 y:収率(%) x1:圧力(気圧) x2:温度(℃) x3:酸度(pH) x5:原料 1 30.4 14.5 87.6 7.5 A 2 26.5 17.1 89.3 6.9 B 3 29.2 16.5 92.3 7.2 B 4 29.5 15.5 89.2 7.4 A 5 25.9 16.6 87 6.5 B 6 29.6 18.8 91.6 8.2 A 7 26.2 19.1 90 7.3 B 8 28.1 17.5 91.5 7.8 B 9 31.1 14.6 89.7 7A 10 26.9 16.1 90.5 6.7 B 結果の解釈 •Marginal法 •推定された回帰式は? 0ー1型ダミー変数の導入 結果の違いは? •Partial法 •推定された回帰式は? ダミー変数の作り方 partial法 marginal法 x1 x2 x3 x1 x2 x3 A 1 0 0 1 0 0 B 0 1 0 1 0 O 0 0 1 0 0 1 AB 0 0 0 -1 -1 -1 順序尺度の場合のJMP x1 x2 x3 1 0 0 0 2 1 0 0 3 1 1 0 4 1 1 1 多項式回帰モデルと線形回帰モデル 西暦 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 VTR生産台数 50 49 114 137 124 119 288 762 1470 2199 4441 9498 13134 18217 28611 •左に示すのは、1970年から1984年までの国内VTR 生産台数のデータである。 •この生産台数の推移をうまく当てはめるモデルを 推定しなさい。 ヒント ①年の取り方に工夫されたい。 ②グラフでプロットしてみて、データの特徴を読み取られたい。 ③2次と3次の項を考えなさい。 データ分析の例 店舗名 乗降客数 店の広さ 駐車台数 売上高 小田原 245 59 60 272 秦野 118 32 35 161 伊勢原 142 25 30 129 本厚木 249 55 45 252 海老名 174 49 40 204 藤沢 202 32 35 168 大和 254 54 45 242 相模大野 168 32 40 169 町田 224 42 50 224 新百合ヶ丘 186 45 45 202 成城学園前 212 56 50 259 経堂 145 32 30 165 下北沢 174 31 35 180 梅ヶ丘 82 38 30 131 代々木上原 177 34 40 215 出所:「Lotus1-2-3活用多変量解析」(共立出版) 参考文献 •内野治・松木秀明・上野真由美、『すぐわかるJMPによる統計解析』、 東京図書、2002年。 •内野治・松木秀明・上野真由美、『すぐわかるJMPによる多変量解析』、 東京図書、2002年。 •田久浩志・林俊克・小島隆矢、『JMPによる統計解析入門』、2002年。 •圓川隆夫、『多変量のデータ解析』、朝倉書店、1988。 •JMPのヘルプファイルや統計関係のウェブサイトも参考になります。 「JMP」をキーワードに検索エンジンで検索してみて下さい。 多項式回帰(1) •直線(説明変数xの1次式) y = ax + b •曲線1(説明変数の2次式) y = ax 2 + bx + c •曲線2(説明変数の3次式) y = ax 3 + bx 2 + cx + d 多項式回帰(2) •列を追加して、計算式で説明変数 (西暦年-1969)の2乗と3乗の列を作成する。 多項式回帰(3) 多項式回帰(4) 多項式回帰(5) 推定された多項式回帰モデルは y = 5318.13 –2812.08 x + 271.686 x2 多項式回帰(6) 推定された多項式回帰モデルは y = -2063.55 + 1970.32 x –452.007 x2+ 30.1539 x3 予測値のチェック モデルは予測に使えるか? ①マイナスの生産台数 ②3次のモデル1973年から76年まで予測値が減少 ③1970年頃(少量生産)と1980年頃(大量生産)で等分散性を仮定してよいか? VTR生産台数の対数変換 VTR生産台数を対数変換してみると、線形の関係が見られる。 変数変換による線形回帰モデル 推定された回帰モデル:lny = 2.797 + 0.496 x このモデルで生産台数を予測するには? 予測値の逆変換 対数変換モデルによる予測 JMPでの変数変換による重回帰分析 JMPでの対数変換モデルの推定結果 ここに示された決定係数は、 変換後のデータに対するもの 数量化理論第Ⅰ類 ダミー変数のみを用いた重回帰分析と同等 チーム名 観客動員数 リーグ 本拠地 親会社業種 前年度成績 読売 304 セ 首都圏 新聞 A 中日 201 セ その他 新聞 A 広島 112 セ その他 市 A ヤクルト 222 セ 首都圏 メーカー B 大洋 154 セ 首都圏 市 B 阪神 213 セ 関西 電鉄 C 西武 181 パ 首都圏 電鉄 A 阪急 123 パ 関西 電鉄 A 日本ハム 124 パ 首都圏 メーカー B 南海 88 パ 関西 電鉄 B ロッテ 78 パ 首都圏 メーカー C 近鉄 101 パ 関西 電鉄 C 1987年度プロ野球観客動員数と球団属性一覧 モデルの仮説 モデルのあてはめ 数量化理論第Ⅰ類の結果(1) カテゴリスコア リーグ[パ]の係数 = -リーグ[セ]の係数= -60.76087 本拠地[首都圏]の係数 =-本拠地[関西]の係数 -本拠地[その他]の係数 = 4.333333 + 42.24638 =46.57971 アイテムのレンジ = アイテムのカテゴリスコアの最大値-カテゴリスコアの最小値 有意性の判定 数量化理論第Ⅰ類の結果(2) 残差の分析 数量化理論第Ⅰ類の応用 1. 2003年度のデータを使用してプロ野球の観客動員数の予測を行ってみなさい。 2. 兵庫県市町データを用いて、数量化理論第Ⅰ類を適用した分析を考えてみなさい。 判別関数分析 サンプル番号 カード使用状態 家族構成数 年齢 年収 1 ○ 3 30 347 2 ○ 4 55 383 3 ○ 5 50 615 4 ○ 4 54 435 5 ○ 6 60 751 6 ○ 5 39 377 7 ○ 3 42 430 8 ○ 6 64 672 9 ○ 2 70 702 10 ○ 4 35 398 11 × 3 41 552 12 × 3 37 306 13 × 2 40 408 14 × 2 30 301 15 × 3 42 315 16 × 4 37 308 17 × 4 33 375 18 × 2 34 578 19 × 3 39 357 20 × 5 30 422 一変量の分布(層別ヒストグラム) カード使用状況とその他の変数との間には、どのような関係が存在するか? 層別散布図(1) 層別散布図(2) 回転プロット 判別関数分析(1) 外的基準(説明したい変数)を0-1型の変数に変換する。 判別関数分析(2) 0-1型に変換された外的基準 判別関数分析(3) 判別関数分析(4) 判別関数分析(5) 判別関数分析(6) マハラノビスの汎距離による判別式 を得るには、外的基準yの値として Ⅰ群に n2 /(n1 + n2 ) Ⅱ群に − n1 /(n1 + n2 ) を与える。こうすれば、外的基準の 値の総平均が0となり、予測値の正 負で判別が可能になる。 また、重回帰分析の変数選択や偏 回帰係数の有意性の検討が判別 関数分析にも応用できる。 判別関数分析(7) z = −1.362 + 0.116 x1 + 0.0218 x2 となる直線(線形判別関数) Ⅰ群(正常○)に判別 Ⅱ群(異常×)に判別 判別関数分析(8) MANOVA(多変量分散分析モデル) を指定 説明変数を指定 外的基準を指定 判別関数分析(9) •判別結果をデータテーブルに保存する 判別関数分析(10) 判別結果 各群の重心からオブザベーションまで の マハラノビスの距離 オブザベーションが各群に 含まれる確率 判別関数分析(11) 説明変数として、家族構成員数と年齢に加えて、年収も入れて分析を行ってみよ。 年収は判別に寄与していない! 数量化理論第Ⅱ類(1) •ダミー変数のみを用いた判別関数分析と同等 •リーグを外的基準にして、リーグの違いを分析してみよ。 1987年度プロ野球観客動員数と球団属性一覧 チーム名 観客動員数 リーグ 読売 304 セ 中日 201 セ 広島 112 セ ヤクルト 222 セ 大洋 154 セ 阪神 213 セ 西武 181 パ 阪急 123 パ 日本ハム 124 パ 南海 88 パ ロッテ 78 パ 近鉄 101 パ 本拠地 首都圏 その他 その他 首都圏 首都圏 関西 首都圏 関西 首都圏 関西 首都圏 関西 親会社業種 新聞 新聞 市 メーカー 市 電鉄 電鉄 電鉄 メーカー 電鉄 メーカー 電鉄 前年度成績 A A A B B C A A B B C C 数量化理論第Ⅱ類(2) リーグを0ー1型変数 または0.5と-0.5の値を とる変数に変換。 数量化理論第Ⅱ類(3) 分析結果を解釈してみると? R 2 = 1 − ( S E /( n − p − 1)) /( ST /( n − 1)) 数量化理論第Ⅱ類(3) 主成分分析(1) 多数の変数データから、変数間の内部関連に基づく少数の 主成分と呼ばれる合成変数を構成する分析法 学生番号 国語 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 社会 55 36 53 78 6 41 73 21 50 61 73 56 56 35 37 61 39 37 40 54 数学 59 49 58 80 19 43 78 29 55 69 80 69 53 43 52 66 55 41 45 65 理科 38 35 16 42 38 49 57 38 22 57 66 79 30 35 54 53 56 23 60 55 音楽 66 57 41 65 59 66 77 58 51 71 88 91 50 49 71 74 69 42 72 72 美術 29 63 67 85 49 74 61 64 58 68 43 55 73 57 81 69 82 53 73 81 32 62 54 75 47 64 62 58 58 61 48 50 72 53 72 62 70 50 67 73 保健体育 技術家庭 英語 29 36 55 66 50 50 69 76 43 57 63 75 53 65 52 65 51 46 53 64 42 60 50 72 63 62 45 47 70 80 56 74 68 78 37 44 59 76 68 85 61 45 48 70 26 49 73 32 52 63 80 73 45 38 51 63 52 37 48 66 主成分分析(2) 主成分分析(3) •x1, x2, ‥‥, xpのp個の変数から新しい変数z1, z2, ‥‥, zmを 作成することを考える。 z1 = a11 x1 + a12 x2 + ⋅ ⋅ ⋅ + a1 p x p z 2 = a21 x1 + a22 x2 + ⋅ ⋅ ⋅ + a2 p x p ::::: z m = am1 x1 + am 2 x2 + ⋅ ⋅ ⋅ + amp x p ・ここで、z1からzmへと順にx1からxpまでの情報が 最大限に集約されるように係数aijを決めたい。 •もとの変数の分散共分散行列の固有値と固有ベクトルを 計算することに帰着される。 主成分分析(4) •通常は相関係数行列からを選択 •分散共分散行列からを選択すると 変数のスケールのとり方に 依存して 分散共分散行列の値が変 化する。 主成分分析(5) 固有値の総和=p(分散共分散行列からの場合は各変数の分散の総和) 第k主成分の寄与率=第k主成分の固有値/p どこまでの主成分を考えるかの基準 ①累積寄与率 ②寄与率の低下の仕方 ③相関行列からの場合に固有値が1より大 主成分分析(6) 主成分分析の結果 (各主成分の重み係数=主成分負荷量=固有ベクトル)を保存 主成分分析(7) 主成分の解釈(主成分の意味の検討) 各主成分の散布図行列から各主成分のもつ意味を検討する。 主成分分析(8) 主成分分析(9) 第1主成分 綜合点 第2主成分 第3主成分 で 特殊技能系 文科系 理科系 主成分スコアから各オブザベーションの特徴を知る
© Copyright 2024 ExpyDoc