点事象集積検出を応用した 産業共集積形態分析の提案

2
はじめに
基盤 (A)「地理情報科学と都市工学の空間情報解析融合技術の戦略的活用」
平成26年度全体報告会
 産業の地理的集積現象
【誘因】
点事象集積検出を応用した
産業共集積形態分析の提案
 生産費用・輸送費の削減
 企業間の取引費用の削減
 高度技能労働者・中間財の集中
…
現象の発生メカニズムを解明する様々な研究が行われている.
2015/3/7
井上 亮・志賀 康平
東北大学
3
はじめに
 産業の地理的共集積現象
「関連性がある複数の産業が同じ地域に立地する現象」
4
(共)集積の実証分析に用いられる指標
• Ellison and Glaeser (1997)
地域単位の雇用統計データを利用
各地域・各産業従業者割合に基づく指標
⇒ EG指標
発生メカニズムの解明に向けて
・理論モデルに基づく分析
・産業立地データを用いた実態把握・実証分析
に関する研究が数多く行われている.
• Duranton and Overman (2005)
事業所立地点・従業者数データを利用
事業所立地点間の距離に基づく指標
⇒ DO指標
地域計画・企業誘致政策の立案など
本研究は,産業立地データを用いた共集積現象の実態把握に着目
5
EG指標 (1産業 i の集積)
 s
M
i 
m 1
mi
 xm 
M
2
m 1 m
x
1  Hi
 s
1 
M
i 
1  
2
m 1
mi
M
 xm 
x
2
m 1 m
H
i
smi:産業 i の全従業者のうち,地域 m の従業者割合
xm: 全産業従業者のうち,地域 m の従業者割合
Hi: 産業 i の企業レベルのHerfindahl指標 (独占度指標)
<使用データ> 地域単位に集計された雇用統計
 s
M
 ijc 
m 1
mi
 xm   smj  xm 
1   m 1 xm2
M
(簡略式)
地域
A
地域
産業A
smi: 全国の産業 i の従業者のうち,地域 m の従業者割合
xm: 全産業従業者のうち,地域 m の従業者割合
2
I
低指標値
6
EG指標 (2産業 i j 間の共集積)
<使用データ> 地域単位に集計された雇用統計
I
II
III
IV
低指標値
V
産業
B
高指標値
高指標値
産業B
C
II
III
IV
V
EG指標 (多産業の組み合わせ I 内の共集積)
7
8
DO指標 (1産業 i の集積)
<使用データ> 地域単位に集計された雇用統計
<使用データ> 各産業事業所の立地位置・従業者数
各事業所の位置のみを考慮する場合
M
c 
s
m 1
m
 xm 
2
M
I

2 
2
1   xm   H    i wi 1  H i 
i 1
 m 1 
I
1  w
2
i
i 1
wi: 産業の組み合わせ I の従業者に占める産業 i の従業者数
sm: 地域 m における組み合わせ I の従業者割合
sm   i wi smi
H: 組み合わせIの企業レベルのHerfindahl指標
H   i wi2 H i
多産業の組み合わせを事前に設定 ⇒ 共集積の程度を評価可能
しかし,共集積する多産業の組み合わせを効率的に発見方法は提案なし.
産業の組み合わせは大量にあるので,分析は困難.
Kˆ AEnt  d  
n: 全事業所数
dij: 事業所 ij 間の距離
f : バンド幅 h のガウス型カーネル密度関数
n 1 n
d d 
1
  f  ij 
n  n  1 h i 1 j i 1  h 
K関数 (Ripley, 1976) との類似性あり
各事業所の位置+従業者を考慮する場合
Kˆ AEmp  d  
Duranton and Overman (2005) は,
EG指標は可変単位地区問題 (MAUP) を有すると批判.
・ 地域区分を変えると指標値が変わる
・ 同一地域に立地していない産業の組み合わせは考慮に入れない
⇒ 隣接地域に立地していても無視される
1
h i 1  j i 1 e  i  e  j 
n 1
n
 
n 1
n
i 1
j  i 1
 d  d ij 
e i  e  j  f 

 h 
e(i): 事業所 i の従業者数
産業立地地点間の距離に基づく指標を提案
9
DO指標 (2産業 i j 間の共集積)
<使用データ> 各産業事業所の立地位置・従業者数
各事業所の位置のみを考慮する場合
Kˆ ijc Ent  d  
1
n
n
i j f
ni n j h r 1 s 1
 d  d rs 


 h 
Ellison and Glaser (1997)
Duranton and Overman (2005)
地域の従業者割合(簡略式)
M
 m1  smi  xm   smj  xm 
c
事業所立地点
 ij 
ni: 産業iの事業所数
drs: 事業所 rs 間のユークリッド距離
f : バンド幅 h のガウス型カーネル密度関数
10
既存の共集積指標のまとめ
Kˆ ijc Ent  d  
1   m 1 xm2
M
2産業間の
共集積指標
Kˆ ijc Emp  d  
クロスK関数との類似性あり
M
各事業所の位置+従業者を考慮する場合
Kˆ ijc Emp  d  
1
h r 1  s 1 e  r  e  s 
ni
nj
 
ni
nj
r 1
s 1
 d  d rs 
er es f 

 h 
3産業以上の
共集積指標
c 
s
m 1
m
 xm 
2
既存の産業共集積分析指標では分析ができない/難しい
 共集積する産業の組み合わせ(産業共集積形態)の発見
 産業共集積が起こっている地域の表示
を行う手法を提案する.
n
n
 
ni
nj
r 1
s 1
 d  d rs 
er e s f 

 h 
なし
I
1   wi2
i 1
長所
本研究の目的
1
h  r i1  s j 1 e  r  e  s 
M
I

2 
2
1   xm   H    i wi 1  H i 
i 1
 m 1 
e(i): 事業所iの従業者数
3産業以上からなる共集積を分析することは困難
 3点以上の近接性の評価方法は?
 3つ以上の異なる点過程から得られた指標値の統計的性質は?
1
n
n
d d 
 i  j f  rs 
ni n j h r 1 s 1  h 
事業所立地点+従業者数
短所
 地域単位の統計から算出可能
 3産業以上の共集積も分析可能
 事業所間距離に基づく分析で,
可変単位地区問題なし
 可変単位地区問題あり
 事業所立地点データが必要
 3産業以上からなる産業共集積を  バンド幅設定に結果が依存
効率的に探索するアルゴリズムが  3産業以上から構成される
提案されていない
共集積の分析は困難
 全体的な共集積の程度を示すのみ,
共集積が生じている地域を示すことはできない
11
12
本研究の接近法
[接近法1] 産業別の集積地域検出
[接近法2] 産業共集積形態の発見・検定
地域1
地域2
地域3
地域4
地域5
地域6
集積
集積
集積
集積
接近法
1. 産業別の集積地域検出
 False Discovery Rate (FDR)制御法
2. 産業共集積形態の発見・検定
 頻出パターンマイニング
 Monte Carlo simulationによる有意性検定
集積
集積
集積
集積
産業共集積形態の発見・共集積地域の把握
13
EG指標と提案手法の比較
本研究の接近法
分析の
特徴
EG指標
各地域に各産業が集積しているかを統計的に検定.
地域単位の産業・雇用統計
データ
14
[接近法1] 産業別の集積地域検出
地域1
 FDRに基づく統計的検定により  各産業の集積地域だけでなく
全地域の従業者数分布が
産業立地(雇用)データを
共集積指標に反映
各産業の集積地域データに縮約
 データマイニング手法により
産業共集積形態を
効率的に発見可能
 共集積を評価するためには
産業共集積形態を
事前に設定する必要あり
 各産業共集積形態に対し
共集積地域を示すことが可能
 共集積地域は不明
 シミュレーションを通して
共集積の有意性を評価可能
 指標の統計的性質について
議論されている
地域2
地域3
地域4
地域5
地域6
集積
集積
集積
集積
集積
集積
集積
集積
多重検定問題を生じる!
点事象の集積地域検出に関する既往手法
15
 FDR制御法に基づく方法
 FDR制御法に基づく方法
e.g., de Castro and Singer (2006), Brunsdon and Charlton (2011)
e.g., de Castro and Singer (2006), Brunsdon and Charlton (2011)
False Discovery Rate (FDR) 偽陽性率
(Benjamini and Hochberg, 1995)
m 個の帰無仮説を検定し
R 個の帰無仮説が棄却された場合を
考える
 複数集積地域検出に適する
多重検定問題へ対応

16
点事象の集積地域検出に関する既往手法
空間スキャン統計に基づく方法
多重検定を行うと,
偽陽性(第一種の過誤)の発生 V を
増やしてしまう
e.g., Kulldorff (1997), Mori and Smith(2010)
 複数集積地域検出に問題あり
ある一地域が集積地域であるかを仮説検定する手法
多重検定問題への対応しているが,
同時に複数の集積地域検出を目指すと
多大な計算時間を要する
FDRは偽陽性率の指標
V 
FDR =E  
R
帰無仮説を
帰無仮説を
保留
棄却
(有意ではない
(有意と判定)
と判定)
計
帰無仮説
真
V
U
m0
対立仮説
真
S
T
m – m0
計
R
m–R
m
ただしFDR =0 if R =0 
FDR制御法
FDRを設定した一定水準 α 以下に抑えて仮説検定を行う方法
[接近法1] FDR制御法による産業別の集積地域検出
17
分析対象領域
[仮定]
産業の事業所 (従業者) 分布はポアソン点過程に従う.
各地域には,地域の大きさ (例: 面積・全産業従業者数など) に
比例した数が立地する.
地域 Z に着目し,地域内外の点密度を
それぞれ Z , Z C とすると
nZ  Poisson  aZ Z  , nZ C  Poisson  aZ C Z C 
この地域 Z が産業集積地域か否かを検定する仮説
[対立仮説] 地域Z は集積
H1 : Z  Z C
[帰無仮説] 地域 Z は集積ではない
H 0 :  Z  Z C
地域 ZC
大きさ: aZ C
事業所数: nZ C
地域 Z
大きさ: aZ
事業所数: nZ
[接近法1] FDR制御法による産業別の集積地域検出
全分析対象領域における事業所数の観測数が N
帰無仮説 H 0 : Z  Z
分析対象領域
地域 ZC
大きさ: aZ C
事業所数: nZ C
条件【全事業所数= N】の下では
nZ は二項分布に従う

aZ Z
nZ  Bi  N ,
 aZ Z  a C  C
Z
Z




地域 Z
大きさ: aZ
事業所数: nZ
が真なら


aZ
nZ  Bi  N ,
 aZ  a C 
Z 

C
したがって,地域 Z の事業所数の観測値が n なら,帰無仮説の p 値は
N
 N   aZ
pZ     

i  n  i   aZ  aZ C



18
i
 aZ C

 a Z  aZ C



N i
[接近法1] FDR制御法による産業別の集積地域検出
19
i) 共集積形態の候補探索
FDR制御法 (Benjamini and Hochberg, 1995)
頻出パターンマイニング
ii) 有意な共集積形態を抽出 Monte Carlo simulation
検定すべき m 個の仮説があり ( m 地域における集積の有無を検定),
その m 個の帰無仮説の p 値を計算する
地域1
1.
20
[接近法2] 産業共集積形態の発見・検定
地域2
地域3
地域4
地域5
地域6
集積
集積
集積
集積
p 値の昇順に並べ替え,p(1),…, p(m)と表す.
2. 有意水準 α に対して,p k  
k
 となる最大の k を探す
m
集積
集積
3. p(1),…, p(k)に対応した帰無仮説を棄却
集積
集積
⇒ k 地域が集積地域として抽出される
i) 共集積形態の候補探索
FDR制御法による集積検出では
各産業が集積している地域を容易に抽出可能
ii) 有意な共集積形態を抽出
21
[接近法2] i) 共集積形態の候補探索
頻出パターンマイニング (Agrawal and Srikant, 1994)
Monte Carlo simulation
FP-growth algorithm (Han et al., 2000) を使用
[接近法1] で得られた産業別集積地域の共起関係を用いて
頻出パターンマイニングで共集積候補を探索する.
地域1
地域2
地域3
地域4
集積
集積
集積
地域5
地域6
集積
集積
<集積発生確率の設定>
提案手法の適用∼使用データの紹介∼
• 「平成21年経済センサス」
基礎調査に関する 地域メッシュ統計
2分の1地域メッシュ(約500m四方)
産業別事業所数データ
全国のメッシュ総数:1,515,129 (湖沼を除く)
事業所のあるメッシュ数:336,646(ゼロ切断データ)
地域1
地域2
地域3
地域4
地域5
地域6
0
1
2
1
2
2
4
0
1/2
1
1/2
1
1
2
0
1/4
1/2
1/4
1/2
1/2
集積
集積
地域数 産業数
集積
集積
各形態候補について,シミュレーションとデータから得られた
共集積地域数を比較し,有意な共集積形態を抽出する.
多くの産業が都市に立地することを考慮するため,
各産業の各地域の集積発生確率は,
地域の集積産業数に比例するよう設定する.
共集積地域数に閾値を設定し,閾値を満たす共集積形態を
候補として抽出する.
頻出
22
[接近法2] ii) 有意な共集積形態の抽出
集積
23
[接近法1] 産業別の集積地域検出 (FDR=0.01)
産業中分類 集積地域数上位10産業
I60
その他の小売業
M76
飲食店
N78
洗濯・理容・美容・浴場業
I58
飲食料品小売業
K69
不動産賃貸業・管理業
P83
医療業
H49
郵便業(信書便事業を含む)
D07 職別工事業(設備工事業を除く)
I57
織物・衣服・身の回り品小売業
D06 総合工事業
集積地域数
7,569
7,563
7,431
7,116
5,452
4,423
3,682
2,545
2,545
2,441
24
I60 その他の小売業
事業所数: 6,009,389[件] (事業内容等が不詳の事業所及び農林漁業を除く)
日本標準産業分類(H19)
中分類: 87産業分類を使用する.
I60 その他の小売業
D07 総合工事業
E24 金属製品製造業
25
[接近法2] 産業共集積形態の発見・検定
共集積形態候補の探索
おわりに
[提案手法の利点]
閾値: min(1産業以上の集積存在地域の0.25%,
共集積形態内最小集積地域数の1%)
大宮
候補数: 137,779
うち,他の部分集合ではない形態数: 3,338

産業別集積地域検出を通した産業立地データの圧縮により
共集積形態を発見的に探索可能.

FDR制御法を用いた集積検出により
• 多重検定問題を回避.
有意な共集積形態を抽出
(999回試行・ FDR=0.01・部分集合が有意でない形態は棄却)
立川
参考文献
吉祥寺
• 多地域から各産業の集積地域を短時間に検出.
三鷹
有意な形態数: 22,787
うち,他の部分集合ではない形態数: 1,342
産業数最多の共集積形態
G39 情報サービス業
I57 織物・衣服・身の回り品小売業
I58 飲食料品小売業
I60 その他の小売業
K68 不動産取引業
L72 専門サービス業(他に分類されないもの)
L74 技術サービス業(他に分類されないもの)
M76 飲食店
N78 洗濯・理容・美容・浴場業
N79 その他の生活関連サービス業
O82 その他の教育・学習支援業
P83 医療業
R92 その他の事業サービス業
共集積地域数
26
#1 #2 #3

 
  
  
  
  
 
 
  
  
  
  


247 225 220 0
蒲田
川崎

頻出データマイニング手法を用いることにより
多地域・多産業のデータから効率的に共集積形態候補の抽出が可能.

シミュレーションを通して,共集積形態の有意性を評価可能.

既往の産業共集積分析方法では把握できない共集積地域を示すことが可能.
横浜
みなとみらい
 大量の産業組み合わせが抽出されるため,結果の解釈が困難.
⇒ 得られた産業間の関係を要約・可視化する手法が不可欠.
μ
10
[課題]
共集積形態 #1
20
40
km
27
Agrawal, R. and Srikant, R., 1994. Fast algorithms for mining association rules. In: Proceedings of the 20th
International Conference on Very Large Data Bases (VLDB 94), Santiago, Chile, 487-499.
Benjamini, Y. and Hochberg, Y., 1995, Controlling the false discovery rate: a practical and powerful approach to
multiple testing. Journal of the Royal Statistical Society Series B, 57(1):289‒300.
Brunsdon, C. and Charlton, M., 2011. An assessment of the effectiveness of multiple hypothesis testing for
geographical anomaly detection. Environment and Planning B: Planning and Design, 38:216‒230.
Caldas de Castro M, Singer B, 2006, Controlling the false discovery rate: a new application to account for multiple
and dependent tests in local statistics of spatial association, Geographical Analysis, 38:180‒208.
Cressie, N.A.C., 1993. Statistics for Spatial Data. Wiley.
Duczmal, L., Kulldorff, M., and Huang, L., 2006. Evaluation of spatial scan statistics for irregularly shaped clusters.
Journal of Computational and Graphical Statistics, 15(2):1‒15.
Duranton, G. and Overman, H. G. 2005. Testing for localization using micro-geographic data. The Review of
Economic Studies, 72(4):1077‒1106.
Ellison, G. and Glaeser, E. L., 1997. Geographic concentration in U.S. manufacturing industries: A dartboard
approach. Journal of Political Economy, 105(5):889‒927.
Ellison, G. and Glaeser, E. L., 1999. The geographic concentration of industry: Does natural advantage explain
agglomeration? The American Economic Review, 89(2):311‒316.
Ellison, G., Glaeser, E. L., and Kerr, W. R., 2010. What causes industry agglomeration? Evidence from
coagglomeration patterns. American Economic Review, 100: 1195 ‒ 1213.
Han, J., Pei, H., and Yin, Y., 2000. Mining frequent patterns without candidate generation. In: Proceedings of the
2000 ACM SIGMOD international conference on Management of data (SIGMOD 00, Dallas, TX). ACM Press,
New York, NY, USA.
Holm, S., 1979, A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 6(2):65‒
70.
Kulldorff, M., 1997. A spatial scan statistic, Communication Statistic Theory and Method, 26(6):1481‒1496.
Mori, T. and Smith, T., 2010, A probabilistic modeling approach to the detection of industrial agglomeration. KIER
Discussion Paper, 777:1‒54.
Ripley, B. D., 1976. The second-order analysis of stationary point processes. Journal of Applied Probability, 13(2):
255 ‒ 266.
 EG指標と同様に,可変単位地域問題(MAUP)あり.
近隣メッシュの立地も考慮した分析が可能か検討の必要あり.