民間住宅ローン利用者の実態調査の結果に関する

3
民間住宅ローン利用者の実態調査の
結果に関する分析
住宅金融支援機構 調査部 専任研究員
外山 信夫(とやま のぶお)
1982年早稲田大学政治経済学部卒業後、住宅金融公庫入庫。日本経済研究センター経済分析部等を経て、2014年4月より現職。日
本統計学会会員
著書等「The R Book - データ解析環境R の活用事例集-」
(共著、九天社、2004 年)
、
「R によるGAM入門」
(共著、行動計量学
第34巻1号、2007 年)、
「R とSVM」
(共著、大阪電気通信大学情報科学センター、2008 年)
、
「実践R 統計分析」
(共著、オーム社、
2015 年)等
インターネット調査は、対象者が自発的に調査会社に会
1.はじめに
はじめに
員登録した方に限られ、標本がランダム・サンプリング
住宅金融支援機構では、居住用の新規の民間住宅ロ
によるものではないため、標本の背後にある母集団の特
ーンを借り入れされた方を対象*1として、利用した住宅ロ
徴を正確に反映したものではない。インターネット調査
ーンの金利タイプ等について調査を行い、年3回「民間
の委託先は、毎年、一般公開入札によって決定するため、
住宅ローン利用者の実態調査」として公表している。本
年度によって調査会社が異なりうる。調査会社が異なる
稿では、2012年度第1回から2015年度第2回までの調
と、各社ごとにアンケートの実施対象者である登録会員
査結果を分析する*2 。金利タイプごと、年度ごとの標本
の属性も異なる。標本の基本属性である年齢を、調査
(有効回答)数とその構成比は、図表1のとおりである。
会社ごとに比較したものが図表2である。調査会社によ
同調査は、ほぼ悉皆調査であるフラット35利用者調
り、属性に大きな違いがあることがわかる*3。
査とは異なり、インターネット調査によるサンプル調査で
第2に調査会社の登録会員の中から、調査対象期間
あり、インターネット調査会社に委託して実施している。
同調査から得られるデータは、他に類似の調査が筆者
の知る限り存在していないことから極めて貴重なもので
ある。
ただし、本調査にはいくつかの限界がある。第1に、
図表2 年齢層と調査会社
調査会社・構成比
20歳代
30歳代
40歳代
50歳代
合 計
A社
741
2,154
1,467
639
5,001
B社
1,056
3,078
1,466
479
6,079
A社
B社
14.8% 17.4%
43.1% 50.6%
29.3% 24.1%
12.8%
7.9%
100.0% 100.0%
図表1 金利タイプ別・年度別の標本数及び構成比
年度・構成比
全 期 間 固 定 型
固定期間選択型
変
動
型
合 計
2012
752
797
1,759
3,308
2013
806
942
1,205
2,953
2014
769
851
1,151
2,771
2015
693
545
810
2,048
合計
3,020
3,135
4,925
11,080
2012
22.7%
24.1%
53.2%
100.0%
2013
27.3%
31.9%
40.8%
100.0%
2014
27.8%
30.7%
41.5%
100.0%
2015
33.8%
26.6%
39.6%
100.0%
全体
27.3%
28.3%
44.4%
100.0%
(資料)住宅金融支援機構「民間住宅ローン利用者の実態調査」
。以下同じ
*1 ただし、i)20歳以上60歳未満の方(学生の方及び無職の方を除く)に限り、ii)利用した住宅ローンも借換ローン、リフォームローン、土地のみのローン、
又はアパート若しくは投資用のローンを除き、フラット35を含む。
*2 調査年度は、毎年の3月から翌年の2月までとなっている。
*3 この場合は、調査会社は最近4年間では2社が交代で1年おきに担当している。
46
[レポート3]民間住宅ローン利用者の実態調査の結果に関する分析
中に新規に民間住宅ローンを利用した方が出現する率が
の場合のように、分析の対象となる応答変数が2分類
極めて低いことである。このため標本数も限られたもの
できる場合の回帰分析の手法として、ロジスティック回
となり、年3回に分割し、さらに属性ごとに細分化して
帰、プロビット回帰、補対数・対数回帰などが使用され
いくと得られる結果がやや安定性を欠くものとなってしま
てきた。なぜ、通常の線形回帰を使用しないのかという
う。
疑問には、次のような理由がある。線形回帰では、推
このような制約はあるものの、上述したように、本調
定値が負の無限大から正の無限大までの値を取り得る。
査で得られるデータは貴重なものである。また、他に低
しかし、2分類問題では、ある観測値が一方のカテゴリ
コストで同様な結果が得られる有効な代替手段はない。
ーに属する可能性は、確率の問題と捉えることができる。
したがって、毎回公表している本調査の集計結果と本
したがって、推定値が(0, 1)の間に収まらないと説明が
稿における分析結果は、ある程度の幅を持って見られる
つかないのである。ロジスティック回帰などでは、応答
べきものである。
変数は必ず(0, 1)の範囲内に収まる。
2. 金利タイプは、どのような
はじめに
変数で予測できるか。
しかし、カテゴリーが{全期間固定型, 固定期間選択
型, 変動型}
のように3分類以上である場合は、どうであ
ろうか。Fox and Weisberg(2011)は、このような場合、
分析で使用するデータは、大別して数値データとカテ
ネストされたロジスティック回帰の使用を提案している。
ゴリカル・データに分かれる。後者は、さらに{全期間
すなわち、第1段階の推定では、
{全期間固定型, それ以
固定型, 固定期間選択型, 変動型}のように、特段の順
外}の2分類についてロジスティック回帰を行う。第2段
序のないもの
(名義尺度データ又は因子と呼ばれる。
)と、
階では{それ以外}について{固定期間選択型, 変動型}
{満足 > 普通 > 不満}のように自然な順序のあるもの
のどちらに属するかを推定する。最後に、両者を合体し
(順序尺度データ又は順序因子と呼ばれる。)に分かれ
て最終的な結論を得るというものである。
る。数値データと順序因子の違いは、数値の1と2の差
だが、外山・辻谷(2015)は、この方法には欠陥があ
は2と3の差に等しいのに対し、満足と普通の差は普通
ることを指摘している。第1段階の推定では{変動型,そ
と不満の差に等しいとは限らないという点にある。
れ以外}
を、第2段階で
{全期間固定型, 固定期間選択型}
本節では、調査対象項目のうち順序のない因子の代
を推定することも可能である。ここで推定の順番は、完
表例として、金利タイプを取り上げる。金利タイプは、
全に分析者の恣意的な判断によっている。問題は、この
調査対象項目として把握できるもののうち、どのような
ように推定の順番を変えると、2分割の順序によって推
変数によって決定されるだろうか。それを説明できるモ
定結果が異なってしまうことにある。
デルが構築できれば、金利タイプの変動要因の分析が
2.1 多項ロジスティック回帰による分析
可能となるとともに、各種属性から将来の金利タイプ動
このように、分類問題に単純なロジスティック回帰など
向を予測できるかもしれない。
の手法を使用することには、限界がある。ロジスティッ
カテゴリカル・データが、
{全期間固定型, それ以外}
ク回帰は、二項分布を前提としている。二項分布などの
*4 正規分布、ポアソン分布、ガンマ分布などが、指数型分布族に含まれ、それぞれ線形回帰、ポアソン回帰、ガンマ回帰などの分析手法が対応する。
47
3
指数型分布族*4を仮定した各種の分析手法を、総称して
その結果は図表3に示されている。ここで、対角線上に
一般化線形モデル(Generalized Linear Models:GLM)
ある数値が正しく予測された観測値の件数、それ以外
という*5。
の数値は誤判別されたものである。誤判別率は、51.5%
2分類問題に二項分布に基づいた分析手法を使用す
である。図表1にあるとおり、最もシェアが高い金利タ
るのは素直な発想だが、多分類問題には多項分布に基
イプは変動型であり、その値は44.4%である。したが
づいた分析手法を使用するのが自然である。問題は、
って、ランダムに44.4%の確率で変動型であると答えた
多項分布はGLMが前提とする指数型分布族に属してい
場合の正答率も44.4%であり、誤判別率は100.0%から
ない点にある。この制約を取り払ったのが、Yee(2015)
44.4%を差し引いた値55.6%となる。モデルによる予測の
のベクトル一般化線形モデル(Vector Generalized
誤判別率の51.5%はそれよりやや改善されているものの、
Linear Models:VGLM)であり、Yeeが作成したRパッケ
決して良好な成績ではない。
ージVGAMによって実行できる。
2.2 randomForestによる分析
ここでは、同パッケージを使用して、多項ロジスティッ
そこで、方針を転換して、機械学習の分野でよく使用
ク回帰による分析を行った。応答変数は金利タイプであ
されているrandomForestという分析手法を試みてみる。
るが、予測変数としては年齢、世帯年収、返済期間、
randomForestは、機械学習の分野でいうところのアン
融資率、返済負担率、都市圏、年度を使用した*6。推
サンブル学習の手法を採用している。アンサンブル学習
定と予測は、次のように行う。データをランダムに2分割
とは、個々のモデルを弱学習器として位置付け、多数発
し、一方のデータをモデル推定用の訓練データとする。
生させた弱学習器の総合力によって高精度の学習器を
他方は、訓練データに基づいて推定されたモデルが、
構成して統計分析(機械学習)を行う手法である。Rの
未知のデータに対してどれほど正確に予測できるかを試
パッケージrandomForestによって、実行することができ
すための、検証データとする。推定された金利タイプご
る。
との回帰係数*7は、世帯年収以外は0.1%水準で、世帯
具体的には、ツリーモデルという分析手法による統計
年収は1%水準で有意であった。推定結果の詳細は、
モデルを弱学習器として使用し、訓練データからランダ
紙幅の制約のため表示を割愛させていただく。
ムに選ばれたデータに対して、多数の(ここでは1000個
問題は、検証データに対する予測の正確性である。
とした。
)ツリーモデルを構成する。その多数決によって、
図表3 多項ロジスティック回帰による金利タイプの予測
図表4 randomForest による金利タイプの予測
全期間固定型
実
固定期間選択型
績
変動型
予 測
全期間 固定期間
固定型
選択型
370
297
244
363
218
235
変動型
866
995
1,952
全期間固定型
実
固定期間選択型
績
変動型
予 測
全期間 固定期間
固定型
選択型
1,230
89
50
1,348
76
92
変動型
*5 一般化線形モデルの易しい解説は外山・辻谷(2015)を、より詳細な解説はMcCullagh and Nelder(1989)を参照
*6 予測変数として当初金利を追加する選択肢もあるが、金利が低ければ変動型であるなどのことは自明なことなので、予測変数から外してある。
*7 多分類問題なので、予測変数は同じでも、カテゴリーごとに回帰係数は異なるのが一般的である。
*8 ツリーモデルとrandomForestについては、外山・辻谷(2015)に易しい解説がある。
48
214
204
2,237
[レポート3]民間住宅ローン利用者の実態調査の結果に関する分析
予測結果が決定されることになる*8。
体に占めるシェアにその区分の面積が比例するように作
とりあえず、検証データに対する予測結果から見てい
図されたモザイク・プロットである。意外なことに、変
こう。図表4がその結果である。対角線上に多くの件数
動型の方が返済期間が長いほどシェアが高くなってい
が集まっている。誤判別率は、13.1%と大幅に改善して
る。返済期間が長期になるほど、一般的には金利変動
いる。
リスクが高まると考えられるので、これは将来に禍根を
randomForestの推定結果から、各予測変数の重要
残す状況といえるかもしれない。
度を比較することができる。それを図示したのが、図表
5である。
図表5によれば、金利タイプの決定に影響する予測変
3. 満足度の総合評価は、どの
はじめに
ような変数で予測できるか。
数のうち、最も重要度が高いのは返済期間である。返
民間住宅ローン利用者の実態調査では、利用者にい
済負担率と世帯年収がほぼ同じ程度の重要度で、これ
くつかの項目ごとに住宅ローンに関する満足度を評価い
に次いでいる。一方、重要度の低いのは都市圏
(首都圏、
ただいている。満足度は、
{大いに満足, やや満足, 普通,
東海圏、近畿圏又はその他)である。金利タイプについ
やや不満, 大いに不満}
の5段階評価によっており、典型
ては、地域別分析はあまり意味をなさない可能性が、こ
的な順序因子である。ここでは、総合評価に影響する
こから示唆される。
変数を分析してみることとする。ただし、図表7に示し
最も重要度が高い返済期間と金利タイプの関係を示
たように「大いに不満」と回答した方は、わずか93件し
したのが、図表6である。これは、各区分の件数が全
かないので、
「やや不満」と統合して「不満」として処理
図表5 各予測変数の重要度
49
3
図表6 返済期間と金利タイプ
(%)
1.0
(金利タイプ)
変動
0.8
0.6
固定期間選択
0.4
全期間固定
0.2
0.0
(年)
図表7 総合評価の満足度別件数
大いに
満足
総合評価 1,969
やや
満足
4,744
普通
3,862
(件)
やや
不満
412
大いに
不満
93
3.1 累積ロジスティック回帰による分析
ここでも、ベクトル一般化線形モデルの手法を利用す
実 績 することとする。
図表8 randomForestによる満足度の予測 (件)
予 測
大いに やや
普通
不満
満足
満足
大いに満足
950
14
4
0
やや満足
2
2,403
7
0
普通
4
15
1,886
1
績不満
0
1
3
250
ることは同じだが、順序因子の場合は、累積ロジスティ
ック回帰で分析する。予測変数は、当初モデルでは年齢、
ほぼ完全に、実績と予測が一致している。誤判別率
世帯年収、返済期間、融資率、返済負担率、当初金利、
も、0.9%と極めて低い。これは、予測変数に当初金利
都市圏及び年度を使用した。このうち、都市圏は10%
を入れた時点で、ある程度予想ができたことである。各
水準でも有意でなかったので、予測変数から除外した。
予測変数の重要度を図表9に示したが、圧倒的に当初
当てはめ直したモデルから予測された結果では、算出さ
金利の重要度が高い。
れる誤判別率は55.6%と芳しくない。そのため、実績と
予測の対比表の掲載は割愛する。
3.2 randomForestによる満足度の分析
ここまで述べてきたように、2分類であれ、多分類で
次に、randomForestによる分析を行う。使用した予
あれ、分類問題についてロジスティック回帰を使うメリッ
測変数は累積ロジスティック回帰の当初モデルと同じで
トは、ほとんど無いと言えよう。
ある。実績と予測の対比表を図表8に示す。
50
4.おわりに
はじめに
[レポート3]民間住宅ローン利用者の実態調査の結果に関する分析
図表9 満足度に関する各予測変数の重要度
長年、大学で統計学を教えていたLeo Breimanは、
Generalized Linear Models, Second Edition.
統計モデルによる予測がなぜ当たらないのかという問題
Chapman & Hall/CRC
に悩まされ続けていた。大学の職を辞した後、Breiman
[4] R Core Team.(2015).R: A Language and En-
氏が一念発起して、構築したモデルがrandomForestで
vironment for Statistical Computing. R Foundation
ある。randomForestは、現在、最高の性能を有する統
for Statistical Computing.
計モデルの1つであると思う。今後は、より多方面で同
モデルが使用されることが望ましい。
[5] Y
ee, T. W.(2015)
.Vector Generalized Linear and
Additive Models. Springer.
[6] 外山 信夫、辻谷 将明(2015)
.実践 R 統計分析.
参考文献
オーム社
[1] Liau, A. and Wiener, M.(2002)
.Classication and
Regression by randomForest. R News 2(3), 18-22.
[2] Fox, J. and Weisberg, S.(2011)
.An R Companion
to Applied Regression, Second Edition. Sage.
[3] M c Cu l l ag h , P. a nd Nelder, J. A . ( 1 9 8 9).
51