Maxent modelへの挑戦 - 不確実さと驚きの理論 -

Maxent modelへの挑戦
- 驚きとドキドキ感の理論 Phillips et al. (2006) Maximum entropy modeling of species
geographic distributions. Ecological Modeling 190: 231-259.
Phillips, and AT&T Research, A Brief Tutorial on Maxent.
大野ゆかり
生息に適している地域の予測
Ecological niche modeling
ある地域での種のいる/いないの情報
から、その種が必要とする環境をモデル
により推定し、生息に適している地域を
予測する。
キノドモズモドキ
Maxent (Maximum entropy) GARP
(Genetic Algorithm for Rule-set
model
Production)
赤い部分はキノド
モズモドキの生息
に適している地域
Phillips et al. (2004)
Maxent modelの利点・欠点
Maxent modelの利点
Maxent modelは種の「いる」情報だけを使い、「い
ない」情報が必要ない。GARPは両方必要。
GARPの予測値は離散だが、Maxent modelは連続
で、予測がきめ細かい。
Softwareが色々な結果を出してくれる。
Maxent modelの欠点(?)
Maximum entropyって、何?
Softwareが出す結果が謎。
そもそもEntropyとは?
 Entropy:分布の不確実性
 不確実性の定量化 『驚き』
イベント
確率
『驚き』
x
px
log(1/ px )

 Entropy:期待される驚き(ドキドキ感)
1
H(
p)

E
[log
]   px log px

p

px
x
宝くじの1等が当選する確率が1億分の1だとする。
当たったら、相当びっくりする → 『驚き』

買う時点では、それほどドキドキしない
→ 期待される驚き
Maximum entropy modelとは?
 ドキドキ感を最大にするmodel
意味:ある値になる確率に偏りがない状態
 Maximum entropy distributionの例
最小値と最大値が決定: 一様分布
平均値と分散が決定: 正規分布
正で平均値が決定: 指数分布
 Maxentでの環境要因と種が存在する確率
環境要因の平均値が決定 (種が「いる」サンプルポ
イントでの環境要因の平均値) : 指数分布
p f   exp(f )
平均値 1/ 
環境要因の値 f
Maxent modelで生息地を予測する
 種の生息地の予測の場合

複数の環境要因が影響している
異なる場所が同じ環境要因の値を持っている
n
正規化の係数
Z:
Pr(X  x)  exp(   j f j (x)) /Z
j1
ポイント
x:
Gibbs関数 n :
環境要因の種類
一様分布から
f j (x) : 環境要因の値
1 m n
ln Z     j f j (i)
i1
j1
m

(log loss) を最小化するを探す。λを探す方法は、iterative
 second-order descend methodと
scaling methodとか、gradient and
か、sequential-update algorithmとか、色々あるらしい。
種が「いる」サンプルポイントの環境要因の平均値は、真の
平均値ではない
S  G   j
overfittingを防ぐl1-reguralization
Maxent modelのsoftware
 Maximum Entropy Species Distribution Modeling, Version 3.2.0
環境データ
種の「いる」
分布
モデルの種類
予測結果
の出力
Linear featuresを選べば指数分布のモデルになるが、auto features
などを選ぶと、非常に複雑な結果になる。
Softwareが吐き出してくる謎の結果
Omission rate(含まれない割合)
Omission rate
Test dataでの種の
「いる」地域が予測
に含まれない割合
Training dataでの種の
「いる」地域が予測に
含まれない割合
適合度が閾値以上の
地域の面積
Cumulative threshold
(この閾値以上の適合度という意味)
Cumulative thresholdが20の時、
適合度が20以上と予測された
地域には、種が「いる」地域の
20%が理論的に含まれない。
Softwareが吐き出してくる謎の結果
ROC (Receiver Operating Characteristic)
適していると予測された地域の割合に対して、種が「いる」地域
が予測に含まれる割合。
1.0 - Omission rate
Training dataでの種の
「いる」地域が予測に
含まれる割合
Test data
AUC (Area Under
the ROC Curve)
AUC in random model
=0.5
適していると予測された地域の割合
AUC
ROC curveの面積。
種が「いる」地域が
正しく予測に含まれ
る確率の期待値。
1に近いほど精度が
高い。
Softwareが吐き出してくる謎の結果
Variable contributionとJackknife test
ある環境要因の影響を除く
testの場合、環境要因間の
相関の影響を受ける。
環境要因の影響の強さを割合で
出してくれる。
ただし、最適値の探索結果なの
で、アルゴリズムが異なると違う
結果になる。
Training gainとtest gainとAUC
の3つの結果が出てきて、比較
することができる。
TrainingとAUCの結果が異なる
と、考察が必要になる。
Softwareが吐き出してくる謎の結果
Response curves (Jackknife testのおまけ)
環境要因間の相関の影響を
受ける。
他の環境要因の値を固定し、ある 他の環境要因を除外し、ある
特定の環境要因の値の影響をみる。 特定の環境要因のみの値の
影響をみる。
まとめ: 素晴らしきMaxentの世界
 Maxent modelの欠点の克服?
Maximum entropyはドキドキ感を最大にする理論。
Softwareから謎の結果は出てくるが、使える結果はあまりな
いかも。
 結論
Softwareを使う時は、maximum entropyの数式の理解は役
に立たない。
重要なのはROC curve (AUC)。Maxentの予測精度を表す。
Jackknife testやresponse curveは、環境要因間の相関がある
ので、 1つの環境要因のものだけを使った方が無難。
Softwareとは別に、統計をやらなくてはいけない。