Maxent modelへの挑戦 - 驚きとドキドキ感の理論 Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190: 231-259. Phillips, and AT&T Research, A Brief Tutorial on Maxent. 大野ゆかり 生息に適している地域の予測 Ecological niche modeling ある地域での種のいる/いないの情報 から、その種が必要とする環境をモデル により推定し、生息に適している地域を 予測する。 キノドモズモドキ Maxent (Maximum entropy) GARP (Genetic Algorithm for Rule-set model Production) 赤い部分はキノド モズモドキの生息 に適している地域 Phillips et al. (2004) Maxent modelの利点・欠点 Maxent modelの利点 Maxent modelは種の「いる」情報だけを使い、「い ない」情報が必要ない。GARPは両方必要。 GARPの予測値は離散だが、Maxent modelは連続 で、予測がきめ細かい。 Softwareが色々な結果を出してくれる。 Maxent modelの欠点(?) Maximum entropyって、何? Softwareが出す結果が謎。 そもそもEntropyとは? Entropy:分布の不確実性 不確実性の定量化 『驚き』 イベント 確率 『驚き』 x px log(1/ px ) Entropy:期待される驚き(ドキドキ感) 1 H( p) E [log ] px log px p px x 宝くじの1等が当選する確率が1億分の1だとする。 当たったら、相当びっくりする → 『驚き』 買う時点では、それほどドキドキしない → 期待される驚き Maximum entropy modelとは? ドキドキ感を最大にするmodel 意味:ある値になる確率に偏りがない状態 Maximum entropy distributionの例 最小値と最大値が決定: 一様分布 平均値と分散が決定: 正規分布 正で平均値が決定: 指数分布 Maxentでの環境要因と種が存在する確率 環境要因の平均値が決定 (種が「いる」サンプルポ イントでの環境要因の平均値) : 指数分布 p f exp(f ) 平均値 1/ 環境要因の値 f Maxent modelで生息地を予測する 種の生息地の予測の場合 複数の環境要因が影響している 異なる場所が同じ環境要因の値を持っている n 正規化の係数 Z: Pr(X x) exp( j f j (x)) /Z j1 ポイント x: Gibbs関数 n : 環境要因の種類 一様分布から f j (x) : 環境要因の値 1 m n ln Z j f j (i) i1 j1 m (log loss) を最小化するを探す。λを探す方法は、iterative second-order descend methodと scaling methodとか、gradient and か、sequential-update algorithmとか、色々あるらしい。 種が「いる」サンプルポイントの環境要因の平均値は、真の 平均値ではない S G j overfittingを防ぐl1-reguralization Maxent modelのsoftware Maximum Entropy Species Distribution Modeling, Version 3.2.0 環境データ 種の「いる」 分布 モデルの種類 予測結果 の出力 Linear featuresを選べば指数分布のモデルになるが、auto features などを選ぶと、非常に複雑な結果になる。 Softwareが吐き出してくる謎の結果 Omission rate(含まれない割合) Omission rate Test dataでの種の 「いる」地域が予測 に含まれない割合 Training dataでの種の 「いる」地域が予測に 含まれない割合 適合度が閾値以上の 地域の面積 Cumulative threshold (この閾値以上の適合度という意味) Cumulative thresholdが20の時、 適合度が20以上と予測された 地域には、種が「いる」地域の 20%が理論的に含まれない。 Softwareが吐き出してくる謎の結果 ROC (Receiver Operating Characteristic) 適していると予測された地域の割合に対して、種が「いる」地域 が予測に含まれる割合。 1.0 - Omission rate Training dataでの種の 「いる」地域が予測に 含まれる割合 Test data AUC (Area Under the ROC Curve) AUC in random model =0.5 適していると予測された地域の割合 AUC ROC curveの面積。 種が「いる」地域が 正しく予測に含まれ る確率の期待値。 1に近いほど精度が 高い。 Softwareが吐き出してくる謎の結果 Variable contributionとJackknife test ある環境要因の影響を除く testの場合、環境要因間の 相関の影響を受ける。 環境要因の影響の強さを割合で 出してくれる。 ただし、最適値の探索結果なの で、アルゴリズムが異なると違う 結果になる。 Training gainとtest gainとAUC の3つの結果が出てきて、比較 することができる。 TrainingとAUCの結果が異なる と、考察が必要になる。 Softwareが吐き出してくる謎の結果 Response curves (Jackknife testのおまけ) 環境要因間の相関の影響を 受ける。 他の環境要因の値を固定し、ある 他の環境要因を除外し、ある 特定の環境要因の値の影響をみる。 特定の環境要因のみの値の 影響をみる。 まとめ: 素晴らしきMaxentの世界 Maxent modelの欠点の克服? Maximum entropyはドキドキ感を最大にする理論。 Softwareから謎の結果は出てくるが、使える結果はあまりな いかも。 結論 Softwareを使う時は、maximum entropyの数式の理解は役 に立たない。 重要なのはROC curve (AUC)。Maxentの予測精度を表す。 Jackknife testやresponse curveは、環境要因間の相関がある ので、 1つの環境要因のものだけを使った方が無難。 Softwareとは別に、統計をやらなくてはいけない。
© Copyright 2024 ExpyDoc