自動車価格決定の解析レポート - InfoShako - 筑波大学

チーフエンジニア
金澤雄一郎 様
データ解析
米国の自動車市場における
価格決定モデルの分析レポート
解析責任者
Kuroda
筑波大学
理工学群
社会工学類
日時
経営工学主専攻
2010 年 7 月 1 日(木)22:00~
1.
解析結果
最善の価格決定モデルは以下の通り :
Log(価格)
=
決定係数
R2 = 0.89
-0.04・加速 + 0.081・排気量 + 0.36・スポーツ
(-5.3)
(5.3)
(7.9)
+ 0.69・Log(車両重量) + 0.17・全輪駆動 + 4.7
(7.9)
2.
(6.5)
(6.8)
解析の概要
データの出典 ・・・
Consumer Report の Ratings 、メーカーの HP
応答変数を価格の対数(自然対数)を取った値とした
解析の際に用いた車の設計特性値(説明変数)
最高出力(馬力)(horsepower)
全輪駆動(all wheel drive)
排気量(displacement [l])
スポーツカー(sports)
座席数(seat)
χ速(χ-speed)
加速(accel [s])
車両重量(weight [lb])
安定制御(stability control)
無段変速機(continuously variable transmission)
・ 上記の説明変数のうち、異常値については「3.データの処理」で触れる
・ 応答変数の価格は最高価格で定義
・ 加速は停止している状態から 60 [mile per hour] まで加速するのに必要な秒数
・ 車両重量は自然対数をとった値を解析で用いた
・ 無段変速機・全輪駆動・安定制御・スポーツカーは条件に当てはまる場合のみ 1
を、それ以外では 0 をとるダミー変数
・ χ速(χ段変速機を表す)と座席数(最高乗車可能人数)は離散型整数のデータ
解析の手順
1.
散布図行列を描き、生のデータを見て説明変数に役立てる
2.
調整済み散布図を描き、モデルに適当な説明変数を加えられるかを決定
(ア) 決定した説明変数の影響を取り除いた残差をプロット
(イ) これ以上説明変数を追加できなくなるまで続ける
3.
Cp 基準により、絞り込まれた幾つかのモデルから最善のモデルを選択
4.
残差を用いて重回帰モデルを診断
(ア) 正規分位点・分位点プロットによる残差の正規性の確認
(イ) ボックスプロットによる分散の均一性の確認
3.
データの処理(高級車の除外)
今回の車両価格のモデル決定の目的は値ごろ感のある価格の設定であり、高級車は
これに当てはまらない。よって、ここでは車種の最高価格が$75,000 を越える車両を
高級車とみなして除外した。
Audi, BMW, Cadillac, Jaguar, Lexus, Mercedes-Benz, Porsche …etc.
また、設定した車両特性値のデータに欠損値があった車両は除外した。
4.
散布図行列
上記の散布図行列は応答変数と各説明変数(10 個)の単純散布図を描いたもので、
モデル選択において役立つ。例えば Hp(出力)と Disp(排気量)の間には強い正の
相関関係がありどちらもエンジンの性能を表す特性値であるために、これを同時に 1
つのモデルに含めて回帰することは妥当ではないかもしれない。
変数名の略語
5.
SC:安定制御
CVT:無段変速機
Spd:変速機の段数
AWD:全輪駆動
調整済み散布図
上の図は
Log(価格) = 切片 + α・Log(車両重量) + (誤差)
(α:回帰係数)
というモデルに「加速」という説明変数を加えられるかどうかを決定するための調整
済み散布図である。横軸に「加速を車両重量で回帰した残差」を、縦軸に「価格を車
両重量で回帰した残差」をとっており、
価格を重量で調整した残差 = -0.095・加速を重量で調整した残差
となり、係数「-0.095」の t-値は-8.45 で、有意である。定義通り切片は 0 に等しい。
よって、この調整済み散布図によりモデルに「加速」を加えることができ、
Log(価格) = 4.0 + 0.88・Log(車両重量) – 0.095・加速 +
(5.8)
(11.3)
(-8.4)
(誤差)
カッコ内は t-値
という新たなモデルが決まる。さらに説明変数を加えるために順次調整済み散布図を
描いていく。
尚、上の調整済み散布図中で塗りつぶされた点は回帰直線からの乖離が大きく、高影
響点であると思われる。図中でアルファベットが割り当てられた点はそれぞれ、
A:Smart For Two
( 重量 1805 [lb] )
B:Land Rover Range Rover Sport
C:Audi A5/S5
D:Mercedes-Benz SLK
E:Porsche Boxster
F:BMW 3 Series
G:Lexus IS
であり、B~G の Luxury セグメントの車は全体のトレンドから離れている。“A”の
Smart For Two は重量が非常に軽く、所謂「超コンパクトカー」である。よって、こ
の車も全体のトレンドとは反している。
6.
Cp プロットによるモデル選択
調整済み散布図の描画によって、以下の 3 つのモデルに絞り込んだ。
但し、回帰係数のカッコ内の値は t-値である
1.
決定係数
Log(価格)
R2 = 0.89
=
-0.04・加速 + 0.081・排気量 + 0.36・スポーツ
(-5.3)
(5.3)
(7.9)
+ 0.69・Log(車両重量) + 0.17・全輪駆動 + 4.7
(7.9)
2.
決定係数
Log(価格)
(6.5)
(6.8)
R2 = 0.88
=
0.43・無段変速 + 0.077・変速段数
(4.0)
(4.1)
+ 0.0023・出力 + 0.53・Log(車両重量) + 5.0
(11.0)
3.
決定係数
Log(価格)
(7.2)
(8.5)
R2 = 0.86
=
0.037・座席数 - 0.033・加速 + 0.091・全輪駆動
(3.1)
(-2.9)
(3.3)
+ 0.15・安定制御 + 0.0028・出力 + 9.6
(3.5)
(12.2)
(66.9)
下の Cp プロットにより、第一のモデルの Cp 値が最も小さく最善のモデルであるこ
とが分かった。Cp 値とは、モデルの説明力を向上すると同時にモデルの複雑さを小さ
くするために計算する基準であり、複数のモデルの Cp 値のうち、最も小さい値を出
すモデルがバランスの取れたモデルであると結論付けられる。
7.
データ分布に関する仮定の評価
今回の解析においては正規理論に基づいた回帰が行われた。よって、誤差項が正規
分布に従っていると仮定される。回帰による残差は真の誤差を推定するものであるの
で、残差が正規分布に従うかを確かめることができる。
以下のグラフは、残差が正規分布しているかを調べる正規分位点-分位点プロット
(noral quantile-quantile plot)である。この正規 Q-Q プロットによって、ある 1 次
元のデータ(ここでは 価格の残差)が正規分布に従うかどうかを調べることができる。
残差が正規分布に従っていれば、価格の残差、言い換えれば説明変数によって説明で
きなかった誤差が直線上に沿う。下の Q-Q プロットは、Land Rover Range Rover
Sports, Cadillac DTS, Cadillac STS, Smart For Two, Audi A4, Porsche Boxster の 6
台を高級車とみなして取り除いた後の図である。
更に説明変数による価格の説明力が高ければ、価格の残差の分散は均一である。こ
こでは Box プロットを用いて分散に不均一性がないか調べる。残差の分散が不均一で
あればそのモデルはあてはまりが悪く、仮に高価格帯において分散が大きくなってい
れば値段の高い車を特定する説明変数が欠落していることとなる。
Box プロットでは箱の内部にある横線がデータの中央値を示しており、箱の上辺は
75%点、箱の下辺は 25%点を表す。これによりいくつかのデータ(ここでは 価格の予
測値帯によって 5 つのセグメントに分割されたそれぞれの価格残差の分散のデータ)
の分布の違いを比較できる。仮に 5 つの箱ひげ図の位置が大きく異なっていれば、残
差の分散は不均一である。
上の図を見ると分散はほとんど一定であり、均一性が示せる。但し最も高価なセグ
メントでは箱もひげも長く、高価格帯の価格の説明力が低価格帯・中価格帯の車両に
比べて若干劣っている。
8.
結論
カッコ内は t-値
決定係数
Log(価格)
=
R2 = 0.89
-0.04・加速 + 0.081・排気量 + 0.36・スポーツ
(-5.3)
(5.3)
(7.9)
+ 0.69・Log(車両重量) + 0.17・全輪駆動 + 4.7
(7.9)
(6.5)
(6.8)
以上