x - 地理空間的思考の教育研究プロジェクト

2010年10月17日
第4章 空間解析
6. 傾向面分析
浅見泰司
[email protected]
地理情報科学教育用スライド ©浅見泰司
ここで学ぶこと
• 大まかな空間分布をとらえる手法として傾向
面分析の内容を理解する。
• 1,2,4次関数の曲面で近似することで、ど
ちらの方向で高いか、どちらの方向に広がっ
ているのかなどをとらえることができる。
地理情報科学教育用スライド ©浅見泰司
傾向面分析のニーズ
• 地表面上の連続的な分布は、サーフェス
(surface)を形成する。
–例
• 人口密度
• 地価
• 気温
• これを簡単な関数で近似できると便利。
– 概略の形がわかる
– 数値計算に便利なこともある
– 大まかな傾向把握が可能となる
地理情報科学教育用スライド ©浅見泰司
• 都市の人口密度分布で考えてみる。
地理情報科学教育用スライド ©浅見泰司
都心からの距離と人口密度
• 都市内の人口分布を簡単な関数で近似する方法があると
便利。
• よく行われる方法は、都心部からの距離で人口密度を表す
こと。
– 地形・地質上の制約がなければ、都市はほぼ同心円的に発展
する。そのため、都心部からの距離が似ていれば地区の市街
化状況も似ていると考えられる。そこで、人口密度もおおまかに
は都心部からの距離で決まっているだろうと仮定する。
• この考え方をもとに、20世紀半ばから様々な式が開発され
てきた。
– 都心部からの距離をx、その地点での人口密度をD(x)として、い
くつかの式を紹介する。
– 下記の式は夜間人口を念頭に開発されたものだが、人口分布
に適合するならば昼間人口やその他の人口分布に応用しても
かまわない。
地理情報科学教育用スライド ©浅見泰司
クラーク(Clark)の式
よく使われる表現式は、クラークの式(Clark (1951))と呼
ばれる。
D(x)=a exp(bx)
– ただし、aは(モデル上の)都心部の人口密度、bは定数。
– 都心部から離れるに従って人口密度が減少するため、b < 0。
Clark (1951)は、アメリカなどの都市の人口密度を調べ、
比較的よく記述できることを示した。
– その頃の都市は都心部ほど人口密度の高い単峰的な分布を
示す都市が多かった。
– その後都市が発展するに従って、都心部より離れた部分の人
口密度の方が高い都市が増えた。これは、副都心が発達した
り、都心部が空洞化するため。
地理情報科学教育用スライド ©浅見泰司
• パラメータa, bを推定するのには、各地点での人
口密度の対数を都心部からの距離で単回帰分
析すればよい。
すなわち、
log D(x)=log a + bx
という式で回帰分析し、定数項を後で変換すれば良い。
• クラークの式を用いた分析で、特にbの値が経年
的にどのように変化するかを調べることにより、
都市の外延化現象を分析することができる。bが
減少するほど、外延化現象が進んでいる。
地理情報科学教育用スライド ©浅見泰司
ニューリング(Newling)の式
クラークの式では空洞化現象の進んだ規模の大
きい都市の人口分布を表現することは困難。そ
こで、この欠点を改めるために提案されたのが、
ニューリングの式(Newling (1969))。
D(x) = a exp(bx+cx2)
– aは(モデル上の)都心部の人口密度、bとcは定数。
– 都心部から離れるにつれて人口密度は上昇しそれ
から減少するというのが一般的なので、b>0, c<0と
なる。
– 単峰的な都市ではb<0となることもある。
地理情報科学教育用スライド ©浅見泰司
ニューリングの式のパラメータを実際の人口密度分布か
ら推定するには、各地点での人口密度の対数を都心
部からの距離とその二乗値で重回帰分析すればよい。
すなわち、
log D(x) = log a + bx+cx2
という式で回帰分析し、定数項を後で変換すれば良い。
ニューリングの式の応用として、モデル上の人口密度最
大点の経年的変化を求めることにより、ドーナツ化現
象を分析できる。すなわち、最大点( -b/(2c) )が都心
部から離れるほど、ドーナツ化現象が進行していると
考えられる。
地理情報科学教育用スライド ©浅見泰司
参考: 人口密度分布式
• Stewart (1947)
– D(x) = D0-bx
• Clark (1951)
– D(x) = D0 exp(-bx)
• Tanner (1961)
– D(x) = D0 exp(-cx2)
• Smeed (1963)
– D(x) = D0 x-a
• Aynvarg (1969)
– D(x) = D0 exp[(bx)x-f]
地理情報科学教育用スライド ©浅見泰司
• Newling (1969)
– D(x) = D0 exp(bx+cx2)
• Newling (1971)
– D(x) = D0+bx-cx2
• McDonald and Bowman (1976)
– D(x) = D0 (xR-x)b
– D(x) = D0 exp(-ax+b/x)
• Kau and Lee (1976)
– [D(x)l-1]/l = a+bx
– [D(x)l-1]/l = a+b(xl-1)/l
地理情報科学教育用スライド ©浅見泰司
• Frankena (1978)
– D(x) = D0-bx+cx2-dx3
– D(x) = D0 exp(-bx+cx2-dx3)
• Zielinski (1979)
– D(x) = D0 exp(bx-cx2)x-f
– D(x) = D0 exp[-cx2x-f]
地理情報科学教育用スライド ©浅見泰司
• この中のいくつかは距離に関するn次式
• 中心からの(x,y)座標で表すとx,yで表現する式に
なる
– D(x) = f(x,y)
• もう一つの欠点は、都心部からの距離だけで表
現されているので、どの方向にも同じような分布
をしていることが暗黙に仮定されている。この欠
点を補う方法が、座標点の式で表現する方法。
→傾向面分析
地理情報科学教育用スライド ©浅見泰司
傾向面分析(trend surface analysis)
• 規則的あるいは不規則的に分布しているn個
の観測点について、観測された値の分布をで
きる限り近似するサーフェスを回帰式によっ
て数学的に求めるもの(張, 2001; 奥野, 1977;
O’Sullivan and Unwin, 2002)。
地理情報科学教育用スライド ©浅見泰司
傾向面分析とは
• 傾向面分析とは2次元に広がった人口密度の値をな
めらかな曲線で近似して、その分布の特徴をとらえる
ものである。2次元の広がりをxy座標で表そう。例えば、
x軸が東方向、y軸が北方向としても良い。
• 原点を例えば都心部など分析上便利な中心的な点に
定める。人口密度がわかっている点を(xi, yi) (i=1,...,
N)とし、その地点の人口密度をpiとする。人口密度を
なめらかな曲線で近似した式を、z = f(x, y)とする。近
似するのだから、人口密度がわかっている各地点iで、
piとf(xi, yi)の違いをなるべく小さくする必要がある。そ
のため、その差の2乗の和を最小化する最小二乗法
を用いて、近似曲線fを求めるのが一般的。
地理情報科学教育用スライド ©浅見泰司
1次傾向面
• 最も簡単な(ただ、あまり近似は良くない)1次傾
向面をとりあげる。これは、fの関数として1次の
式を用いるもので、a, b, cを定数として、
•
f(x, y) = ax+by+c
• と表すことができる。定数は最小二乗法で推定
する。
• 山形に分布する人口密度を平面で近似しようと
いうのだから、さほど近似にならない。ただ、どち
らの方向に人口密度が多いかを知ることはでき
る。具体的には、(a, b)の方向に人口密度が多い
地域が卓越していることになる。
地理情報科学教育用スライド ©浅見泰司
2次傾向面
• 現実的な分析は、2次以上の傾向面分析によって行
うことができる。2次傾向面は、fの関数として2次式を
用いるもので、a~gを定数として、
•
f(x, y) = ax2 + bxy + cy2 + dx +ey + g
• と表すことができる。
• 都市全域を含めて分析すれば、通常、aとcは負の値
となって、上に凸の2次曲面となる。
• 2次傾向面で重要な点は、2次傾向面の最大値で、こ
れが、分析対象都市の人口分布での中心地に相当
する。
• もうひとつ重要なのは、どちらの方向に長く人口密度
が高い地域が広がっているかを示すもので、これは、
得られた2次曲面が楕円曲面となっている場合に、そ
の長軸方向が求めるべき方向となる。
地理情報科学教育用スライド ©浅見泰司
4次傾向面
• 都市の人口密度分布は都市全域で考えれば
周辺部が小さくなる山形なので、3次傾向面
はあまり用いられず、4次傾向面が使われる。
4次傾向面も上と同様に、fが4次式で表され
るものである。
• 4次式を用いると、都心部の空洞化現象など
も表すことができ、例えば、どちらの方向に空
洞化が卓越しているかなどを分析することが
できる。
地理情報科学教育用スライド ©浅見泰司
傾向面分析の例
• まずは、計算例を見てみよう!
• 例
– 東京都23区の2010年における人口密度分布
– 人口・世帯数:2010年1月の住民基本台帳
– 緯度経度は各区役所の位置
– (x,y)は経度と緯度がそれぞれ、最小値0、最大値
1になるように変換したもの
地理情報科学教育用スライド ©浅見泰司
2010年の23区の人口密度と位置
住民基本台帳による1月1日人口
TITLE
UNIT
千代田区
中央区
港区
新宿区
文京区
台東区
墨田区
江東区
品川区
目黒区
大田区
世田谷区
渋谷区
中野区
杉並区
豊島区
北区
荒川区
板橋区
練馬区
足立区
葛飾区
江戸川区
2010年人口
人
47 138
113 871
201 543
282 144
189 286
166 984
238 356
446 393
348 590
253 022
674 527
831 654
195 911
299 562
527 158
244 637
318 711
186 906
518 116
692 450
641 888
431 796
651 884
2010年世帯
数
世帯
25 914
65 786
114 816
169 573
101 803
92 656
123 891
221 922
189 946
140 005
344 808
432 941
117 103
175 932
291 990
144 007
167 842
94 378
266 100
332 307
300 892
203 087
303 029
人口密度
人/k㎡
4 050
11 186
9 909
15 477
16 736
16 566
17 335
11 177
15 343
17 212
11 344
14 319
12 966
19 215
15 496
18 804
15 479
18 324
16 106
14 378
12 066
12 394
13 074
緯度
経度
35.69078
35.66736
35.6548
35.69066
35.70465
35.70937
35.70723
35.66972
35.60597
35.63723
35.55817
35.6428
35.66064
35.70417
35.69631
35.72917
35.74967
35.73291
35.74788
35.73249
35.77177
35.74054
35.70361
139.7569
139.7753
139.7548
139.7067
139.756
139.7832
139.8047
139.8201
139.7334
139.7019
139.7193
139.6561
139.7013
139.6671
139.6396
139.7188
139.737
139.7866
139.7124
139.6549
139.8078
139.8506
139.872
地理情報科学教育用スライド ©浅見泰司
x
0.504551
0.583844
0.495666
0.288472
0.500805
0.617948
0.710638
0.776651
0.403587
0.26818
0.342949
0.070852
0.265266
0.118013
0
0.340539
0.418907
0.632748
0.313076
0.065682
0.723741
0.908185
1
y
0.620816
0.51118
0.452374
0.620266
0.685759
0.707865
0.697846
0.522229
0.223792
0.370099
0
0.396199
0.47972
0.68351
0.646727
0.800566
0.89654
0.818071
0.888123
0.816086
1
0.853801
0.68088
地理情報科学教育用スライド ©浅見泰司
• おおまかに言うと・・・
• Q1:北西の方が密度が高い?
• Q2:中心部は少なく、周辺で多く、外延部で少
ない(ドーナツ化現象)?
地理情報科学教育用スライド ©浅見泰司
• 本来はコロプレス・マップで表現すべきだが、
あえて、それぞれの区役所の位置で代表さ
せて、その地点における人口密度であると考
えると・・・
地理情報科学教育用スライド ©浅見泰司
1
0.9
0.8
0.7
y
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
x
地理情報科学教育用スライド ©浅見泰司
0.7
0.8
0.9
1
• 一次回帰式
PopDensity = ax+by+c
• という回帰分析をしてみると・・・
地理情報科学教育用スライド ©浅見泰司
概要
回帰統計
重相関 R
0.4131157
重決定 R2
0.1706645
補正 R2
0.087731
標準誤差
3298.5859
観測数
23
分散分析表
自由度
回帰
残差
合計
切片
x
y
変動
2
20
22
44781502
217613381
262394884
係数
標準誤差
13338.476
2133.9166
-4456.264
2692.9978
4751.7811
3092.9641
観測された分
散比
22390751
2.0578469
10880669
分散
t
6.2507016
-1.65476
1.5363195
P-値
4.194E-06
0.1135824
0.14013
地理情報科学教育用スライド ©浅見泰司
有意 F
0.1539226
下限 95%
上限 95%
8887.2036 17789.747
-10073.76 1161.2312
-1700.029 11203.591
• つまり、
PopDensity = -4456.264x+4751.7811y+13338.476
• 北(yが正)西(xが負)側に人口密度がやや多い
が、xの係数もyの係数も統計的に有意ではない。
• →Q1は×
地理情報科学教育用スライド ©浅見泰司
• さらに、二次回帰式
PopDensity = ax2 + bxy + cy2 + dx +ey + g
• という回帰分析をしてみると・・・
地理情報科学教育用スライド ©浅見泰司
回帰統計
重相関 R
0.417101
重決定 R2
0.173973
補正 R2
-0.06898
標準誤差
3570.674
観測数
23
分散分析表
自由度
変動
分散
回帰
5
45649720
9129944
残差
17
2.17E+08
12749716
合計
22
2.62E+08
係数
標準誤差
t
観測された分
散比
0.71609
P-値
有意 F
0.620023
下限 95%
上限 95%
切片
14340.91
5594.828
2.563244
0.020153
2536.853
26144.96
x
-7301.91
15252.06
-0.47875
0.638217
-39480.9
24877.13
y
3874.794
12098.37
0.320274
0.752664
-21650.5
29400.12
x^2
-949.794
10057.46
-0.09444
0.925866
-22169.2
20269.6
xy
5465.804
21078.07
0.259312
0.798508
-39005
49936.64
y^2
-1200.56
11678.02
-0.1028
0.919321
-25839
23437.9
地理情報科学教育用スライド ©浅見泰司
• つまり、
PopDensity = -950x2 +5466xy-1201y2-7302x
+3875y+14341
• ・・・x2とy2の係数はマイナスだけど、xyの係数
はプラス
地理情報科学教育用スライド ©浅見泰司
• x,yで2階微分すると、
 950 5466 
 5466  1201


• これは負値行列ではない!
• つまり上に凸ではない
• 実際、y=x(北東-南西方向)とすると、
PopDensity = 3315x2-3427x+14341
• となり、原点から十分遠いところでは大きくな
る! 北東-南西方向では下に凸!
• →Q2も×
地理情報科学教育用スライド ©浅見泰司
• このように、コロプレスマップではごまかされ
てしまうようなことを傾向面分析により正確に
分析できる!
地理情報科学教育用スライド ©浅見泰司
多項式関数の適合
• 先の例のように、サーフェスモデルを求める
際、回帰式に多項式を用いる場合がある。
• これが傾向面分析の基礎的な応用。
• 通常は、平面の当てはめ(一次関数により傾
向面分析)、もしくは二次関数による当てはめ
くらいしか行わない。それ以上だと、解釈が難
しくなってくる。
地理情報科学教育用スライド ©浅見泰司
多項式関数の適合
• より正確に記述すると:
zi=f(xi,yi)+ei
• ただし、ziはi番目の観測値、(xi,yi)はi番目の
観測値の(x,y)座標、f()は傾向面関数、eiはi
番目の観測値の誤差。
• 傾向面関数が線形であれば、通常の線形の
回帰分析で関数を推計できる。
地理情報科学教育用スライド ©浅見泰司
残差解析
• サーフェス全体の分散を傾向(多項回帰式)
と傾向からの残差に分け、そのうちの残差に
注目し、その統計的性質をもとに多項回帰式
の妥当性や外れ値の抽出などがおこなわれ
る。
地理情報科学教育用スライド ©浅見泰司
• 応用として、回帰分析の残差分析にも使われ
る。
• まずは、説明変数で回帰して、その残差につ
いて傾向面分析を行う。
• 一度にやってしまうには、
zi=g(ti)+f(xi,yi)+ei
• という関数を推計すればよい。ただし、g()は
属性に関する回帰分析の関数、tiはi番目の
観測値の属性値ベクトルである。
地理情報科学教育用スライド ©浅見泰司
• 例えば、人口密度は道路密度(1㎢あたりのkm
単位の道路長さ)で決まると考えたとする。そう
すると、
PopDensity = a+bRoadDensity+e
e = cxx+cyy+e
というモデルを考えることができる。最初の式
は、人口密度が道路密度の一次関数で表現で
きるというモデルであり、二番目の式は、その誤
差に関する傾向面分析である。
地理情報科学教育用スライド ©浅見泰司
• これを一つの式に表わすと
PopDensity = a+bRoadDensity+cxx+cyy+e
となる。これは、上記の残差傾向面分析の式
の形となっている。
• 実際にやってみると・・・
• (道路密度は2008年のデータ)
地理情報科学教育用スライド ©浅見泰司
千代田区
中央区
港区
新宿区
文京区
台東区
墨田区
江東区
品川区
目黒区
大田区
世田谷区
渋谷区
中野区
杉並区
豊島区
北区
荒川区
板橋区
練馬区
足立区
葛飾区
江戸川区
人/k㎡
km/k㎡
人口密度
道路密度
4050
15.10593
11186
19.0553
9909
14.79744
15477
19.20274
16736
18.31459
16566
25.67421
17335
21.41433
11177
9.727892
15343
16.74489
17212
24.13
11344
14.19803
14319
20.31804
12966
17.84308
19215
23.32566
15496
22.10697
18804
23.77456
15479
18.05639
18324
21.10902
16106
22.9705
14378
23.2794
12066
19.40273
12394
19.93384
13074
21.76619
x
0.504551
0.583844
0.495666
0.288472
0.500805
0.617948
0.710638
0.776651
0.403587
0.26818
0.342949
0.070852
0.265266
0.118013
0
0.340539
0.418907
0.632748
0.313076
0.065682
0.723741
0.908185
1
地理情報科学教育用スライド ©浅見泰司
y
0.620816
0.51118
0.452374
0.620266
0.685759
0.707865
0.697846
0.522229
0.223792
0.370099
0
0.396199
0.47972
0.68351
0.646727
0.800566
0.89654
0.818071
0.888123
0.816086
1
0.853801
0.68088
回帰統計
重相関 R
0.675193
重決定 R2
0.455886
補正 R2
0.369973
標準誤差
2741.232
観測数
23
分散分析表
自由度
変動
分散
回帰
3
1.2E+08
39874047
残差
19
1.43E+08
7514355
合計
22
2.62E+08
係数
切片
標準誤差
観測された分散
比
t
5.306383
P-値
有意 F
0.007931
下限 95%
上限 95%
3515.1
3582.417
0.981209
0.33882
-3982.98
11013.18
588.829
186.5804
3.155899
0.005203
198.3117
979.3463
x
-1408.77
2437.412
-0.57798
0.570066
-6510.33
3692.79
y
-251.106
3019.889
-0.08315
0.934602
-6571.81
6069.595
道路密度
地理情報科学教育用スライド ©浅見泰司
PopDensity = 3515+589RoadDensity-1409x251y+e
という式になっている。ただ、xの回帰係数もy
の回帰係数も統計的には有意ではない。
• つまり、道路密度で人口密度はほぼ説明さ
れ、かつ誤差にも一定方向に大きな誤差が
あるというような有意な傾向がないことがわ
かる。
地理情報科学教育用スライド ©浅見泰司
• 残差に対する傾向面分析は、時として回帰式
には含まれない隠れた変数を見出すヒントに
なることもある。ただし、あまり強力な方法と
はならないことが多い。
地理情報科学教育用スライド ©浅見泰司
参考文献
• O’Sullivan, David and David J. Unwin (2002)
Geographic Information Analysis, John Wiley
& Sons, Inc.
• 奥野隆史(1977)『計量地理学の基礎』大明堂.
• 張長平(2001)『地理情報システムを用いた空
間データ分析』古今書院.
地理情報科学教育用スライド ©浅見泰司