情報が欠如した種の分布を どうモデリングするか

生態学会63回全国大会 シンポジウム02
「保全科学が挑む情報のギャップ」
情報が欠如した種の分布を
どうモデリングするか
国立環境研究所 石濱史子
保全科学が挑む情報のギャップ
保全科学
データの収集
生態学
得られる情報のギャップ
科学的知見の取得
保全生物(生態)学
研究-実務間のギャップ
現場での活用
保全活動・行政
情報の欠如 = どんぴしゃのデータがない
モデリング = 他から情報を借りてきて補う
メカニズムを仮定する
分布推定モデル(species distribution models; SDMs)
種の分布と環境条件との関係を推定する
生物の分布 = function(環境)
Presence/absence
or abundance of organisms
(在/不在 or 個体数)
Environment
(e.g. elevation, temperature)
情報の欠如 = どんぴしゃのデータがない
モデリング = 他から情報を借りてきて補う
メカニズムを仮定する
生物の分布情報でよく問題になる
データ不足のタイプ








在のみ
詳しくは https://dx.doi.org/10.6084/m9.figshare.4012398
空間的偏り
座標精度
出現頻度の少ない種
分類群の偏り
同定精度
発見率
そもそも発見されていない種
生物の分布情報でよく問題になる
データ不足のタイプ








在のみ
空間的偏り
網羅的でない
座標精度
出現頻度の少ない種
分類群の偏り
同定精度
発見率
そもそも発見されていない種
分布推定モデル(species distribution models; SDMs)
種の分布と環境条件との関係を推定する
生物の分布 = function(環境)
Presence/absence
or abundance of organisms
(在/不在 or 個体数)
Environment
(e.g. elevation, temperature)
分布推定モデルとは
Species Distribution Model(SDM)
点だった情報を、面に、現在の分布を将来の推定
情報に、変換できる。
環境
分布
推定分布確率
+
標高
モデル推定手法の発達、GISにより環境情報の整備が
容易になったことなどに伴い、近年、もっとも多くの論
文が出ている研究トピックスの1つ
分布データでよく問題になる
情報不足のタイプ








在のみ
空間的偏り
座標精度
出現頻度の少ない種
分類群の偏り
同定精度
発見率
そもそも発見されていない種
生物の分布情報の種類
個体数データ

在/不在データ

在のみデータ
情報量

自分で取得
渡良瀬遊水地
(ラムサール湿地)
ヨシ原面積約2500ha
ヨシの草丈4m!
1.5 生物の分布情報の種類
個体数データ

在/不在データ

在のみデータ
情報量

博物館の標本情報を利用


GBIF
標本が採れた、ということしか
わからない
在のみデータの問題点
在情報がない地点は
 本当に対象種が生育していないのか、
 単に調査されていないのか、
区別が付かない
詳しくは
https://dx.doi.org/10.6084/m9.figshare.4012398
標高
不在情報がないと
環境条件との関係はわからない。
Presence/absence
Presence/absence
在のみデータ
Presence/absence
Presence/absence
モデルは不在情報が必要
在 + 不在
標高
標高
標高
在のみデータからどうやって分布推定す
るか: pseudo‐absence




“background”と呼ばれることもある
一定のルールに基づいて、仮の “不在” を在情
報がない場所から選ぶ
どのように pseudo‐absence を選ぶかは分布推定
結果に重大な影響がある
データの特性を考慮しながら、真の不在に近い範
囲をどうしたら選べるか考える必要がある
pseudo‐absenceの選び方の例
在
近縁種の在
ランダム
Target group background
(推定される調査範囲)
Pseudo‐absence
既知の在地点と環境
条件が異なるところを
選ぶ
Pseudo‐absence (background) の選び方は
分布推定の結果に大きく影響する
(= target group background)
Elith et al. 2011 Diversity and Distributions 17:43‐57
分布データでよく問題になる
情報不足のタイプ








在のみ
空間的偏り
→ 補完(内挿)、外挿
座標精度
出現頻度の少ない種
分類群の偏り
→ JSDM
同定精度
発見率
そもそも発見されていない種
博物館の標本情報を利用


GBIF
同定の信頼性や座標精度、時
代などのばらつきが大きいの
で、要注意!
データクリーニング
1.
2.
3.
座標の有無をチェック
マッピングしてOutlierを
チェック
明らかな入力ミスを修正
(緯度経度が逆、表記法の不統一など)
4.
種名の入力ミス、シノニ
ムの整理
博物館の標本情報を利用

座標がついていないものが大半なので、
ジオコーディングが必要
マメ科Dalbergia属のデータの場合 (GBIF等から取得)
座標精度
レコード件数
数m
(GPS)
1245
10km以内
187
20km以内
447
50km以内
810
>50㎞
222
座標精度は、地名のレベルから大まかに決定
座標精度の低いデータをどう扱うか?
1. 他のデータと同じように使う「全レコード法」
2. 精度が低いものは除いて使う 「切り捨て法」
もともとレコード数が少ない種が分布推定できなくなる
(Dalbergiaの場合、全117種中、81種がレコード数<20)
3. 精度に応じた情報量を反映するように使う
うまくできれば、データから最大限の情報を引き出すこと
ができる
「座標ゆさぶり法」
座標精度の影響は
その場所の環境勾配しだいである
環境値 気(温など )
環境値の
誤差
座標精度
環境値の
誤差
座標精度
空間
環境勾配が大きい場所では
環境値の誤差が大きく、データの持つ情報量が低下する
精度に応じた情報量を反映するように使う
座標ゆさぶり法
座標精度に応じたノイズを乗せた点を使って分布推定を繰り返し、
平均をとる
元データ
ノイズを乗せる
座標精度
この方法であれば、その場所の環境勾配に応じた影響を与えられる
4
人工データの生成
e nv_ true
3
2
1
0
緯度勾配と山が存在するときの気温変化を想
定し、空間軸に対して、平均的には一定の勾
配で増加、サインカーブで周期的に増減する。
環境値
・環境・空間軸: 一次元、1000メッシュ
環境勾配をコントロール
0
200
400
600
800
Index
空間座標
・座標誤差の設定
レコードごとに異なる座標精度を持つとし、
精度を乱数で決定。決定された精度に応
じた誤差を与えた。
0.08
空間
0.04
上記の環境分布と生物の環境応答に従って、
場所ごとの生物の在・不在を生成。
環境
0.00
・分布データの生成
在・不在
最適な環境があるとし、二次関数で応答。
好みの幅や出現頻度は様々に変えながら分析。
好適度
・生物の環境応答
0
20
40
60
80
1000
希少種(平均出現頻度10/1000)の場合
0.9
0.9
1.0
prev=0.01, env_sin_width=25
1.0
prev=0.01, pref_width=-80
0.8
0.7
0.6
0.5
急
•
true_mean
0.8
0.7
0.5
0.6
true_mean
20
•
値
AUC
値
AUC
真のデータ
座標ゆさぶり法
切り捨て法
全レコード法
40
60
環境勾配
env_sin_w idth
80
100
緩い
-80 -70 -60 -50 -40 -30 -20 -10
狭
pref_w idth
好みの幅
広
期待通り、環境勾配が大きく、好みの幅が狭いときに、
処理の効果が大きい。
座標ゆさぶり方法は、切り捨て法・全レコード法のいずれ
よりもパフォーマンスが良い。
希少種(平均出現頻度10/1000)の場合
1.0
1.0
0.9
座標精度反映法
0.8
0.7
全レコード法
0.6
低精度レコード除去法
0.5
true_mean
0.8
0.7
0.5
0.6
真のデータ
座標ゆさぶり法
切り捨て法
全レコード法
真のデータ
値
AUC
値
AUC
true_mean
prev=0.01, env_sin_width=25
0.9
prev=0.01, pref_width=-80
20
急
40
60
環境勾配
env_sin_w idth
80
100
緩い
-80 -70 -60 -50 -40 -30 -20 -10
狭
pref_w idth
好みの幅
広
期待通り、環境勾配が大きく、好みの幅が狭いときに、
処理の効果が大きい。
座標ゆさぶり方法は、切り捨て法・全レコード法のいずれ
よりもパフォーマンスが良い。
普通種(平均出現頻度100/1000)の場合
0.9
0.9
1.0
prev=0.1, env_sin_width=250
1.0
prev=0.1, pref_width=-50
0.8
0.5
0.6
0.7
true_mean
0.8
0.7
0.5
0.6
true_mean
値
AUC
値
AUC
20
急
40
60
env_sin_w idth
環境勾配
80
100
緩い
-80 -70 -60 -50 -40 -30 -20 -10
狭
pref_w idth
好みの幅
広
• いずれの方法でも、真のデータを使ったモデルとほとんど差が
なく、座標精度の影響は意外なほど小さい。
← 十分なレコード数があれば、誤差は平均的には打ち消されるから?
マメ科Dalbergia属のデータに適用した場合
分布推定可能だった種数
手法
切り捨て法
(精度20km)
座標ゆさぶり
法
分析可能な
種数
種あたりの
レコード数
(共通種のみ)
62
29.9
104
44.9
精度に応じた情報量を反映するように使う
座標ゆさぶり法
座標精度に応じたノイズを乗せた点を使って分布推定を繰り返し、
平均をとる
元データ
ノイズを乗せる
座標精度を考慮したモデリングをすることで
データの情報量を最大限、活用して
座標精度
希少種の分布推定を改善できた!
この方法であれば、その場所の環境勾配に応じた影響を与えられる
分布データでよく問題になる
情報不足のタイプ








在のみ
空間的偏り
座標精度
出現頻度の少ない種
分類群の偏り
→ Joint SDM
同定精度
発見率
そもそも発見されていない種
Joint SDMとは
情報の欠如 = どんぴしゃのデータがない
他の種から
モデリング = 他から情報を借りてきて補う
メカニズムを仮定する
複数の種を同時に調査している場合は多い
種
場所
1
0
0
0
1
0
1
1
0
0
0
1
0
0
0
1
0
0
0
0
0
1
1
0
0
0
1
1
0
1
1
1
1
1
1
0
1
1
0
1
1
0
1
0
1
1
0
0
1
0
0
0
0
1
0
0
0
0
1
1
0
0
0
0
0
0
0
1
0
0
1
0
1
1
0
0
0
1
0
0
これまでの分布推定は、この情報しか使っていなかった
種
場所
1
0
0
0
1
0
1
1
0
0
0
1
0
0
0
1
0
0
0
0
0
1
1
0
0
0
1
1
0
1
1
1
1
1
1
0
1
1
0
1
1
0
1
0
1
1
0
0
1
0
0
0
0
1
0
0
0
0
1
1
0
0
0
0
0
0
0
1
0
0
1
0
1
1
0
0
0
1
0
0
分布情報には、まだ使える情報量が残っている!
種
場所
1
0
0
0
1
0
1
1
0
0
0
1
0
0
0
1
0
0
0
0
0
1
1
0
0
0
1
1
0
1
1
1
1
1
1
0
1
1
0
1
1
0
1
0
1
1
0
0
1
0
0
0
0
1
0
0
0
0
1
1
0
0
0
0
0
0
0
1
0
0
1
0
1
1
0
0
0
1
0
0
分布情報には、まだ使える情報量が残っている!
種
多くの種の分布を
同時に推定して
種間の分布相関の情報
を活用する
場所
Joint SDM
1
0
0
0
1
0
1
1
0
0
0
1
0
0
0
1
0
0
0
0
0
1
1
0
0
0
1
1
0
1
1
1
1
1
1
0
1
1
0
1
1
0
1
0
1
1
0
0
1
0
0
0
0
1
0
0
0
0
1
1
0
0
0
0
0
0
0
1
0
0
1
0
1
1
0
0
0
1
0
0
どうやって他種の情報を借りるか?
:基本的アイディア

生物の分布に影響する環境条件には、簡単には測れ
ない and/or 広域で得にくいものがある
(微細環境、水分環境、土壌環境、etc)

分布に種間関係(競争、共生、餌資源・・)が影響して
いることもある
⇒ 共通の(未観測の)環境や種間関係に依存する
種群は、期待より同時に出現しやすい/しにくい
= 種間の分布相関のパターンから、未知の要因を
抽出できる
種
説明変数
サイト
既知の変数
で説明できない
種間相関
種
説明変数
サイト
種間相関の背景にある
隠れ変数
Warton et al. 2015
JSDMのメリット
• 種間関係に関する情報が得られる、希少
種の情報も無駄にならない
• 種間相関の導入により、現実に近いホット
スポット推定ができる
• 今後、活用可能であろう情報がさまざまに
ある:空間相関、系統相関、形質情報
ホットスポット推定
生データそのまま
1種ごとのSDMを
足し合わせ
現実よりメリハリがなくなりがち
(中くらいの多様性のところが多い)
より現実的なホットスポット推定
Harris (2015)MEE 6, 465–473
サイトの頻度
種ごとに個別推定
JSDMで同時推定
サイト当たりの種数
より集中構造(=種間相関)のある
現実に近そうな推定結果
JSDMの限界
• 多種を扱うので、計算負荷が大きい
• すべての個別の種の精度が劇的に改善するわ
けではない
• 隠れ変数を使うので、パターンは推定できても、メカニズムは推
定できない(仮説作りの参考にはなる)
• 収束の改善のためにさまざまな仮定を置くので、対象とする群集
に当てはまるかどうか
モデルによるデータ不足の補完例
データ不足のタイプ
モデルでの対応例
在のみデータ
Pseudo‐absence(仮の不在)を適
切に選ぶことで偏りを補正
空間的偏り
空間的に網羅的でない
分布推定により補完 (外挿の可否
はケースバイケース)
座標精度が低い
精度を反映した分布推定
出現頻度の少ない種
同所的に出現する種、近縁種な
どの情報を利用
未発見の種
これまでの発見パターンから推
定
しかし・・・
モデルを使うことで
かえって悪化する場合も
あります!
保護区選択でのSDM利用
 保護区選択は生物多様性保全の最も基本的な方法の1つ
 保護区の選択をするとき、すべての生物の全地域での分
布情報が揃っているが望ましい.  調査データの制約:
• 限られた調査範囲
• 調査範囲や努力量の偏り
• 誤同定や見逃しによる誤差
分布推定モデル (SDMs) は
これらの制約を軽減するのに役に立つとされる
理屈で考えても
分布推定モデルがいつも役に立つとは限らない
 データの制約はモデルの推定精度にも影響する。
による利益
SDM
•
•
調査範囲が過小なとき:
良いモデルの推定が困難
調査範囲が十分に広いとき:
モデルは不要
調査範囲
 SDMが役に立つかどうかは、様々な条件次第のはず
目的:
真の分布が把握できるシミュレーションデータを用いて
分布推定モデルが保護区選択に役に立つ条件を明らか
にする.
1. 調査範囲の広さ
2. 目標保護区サイズの大きさ
3. 調査範囲のバイアスの大きさ
SDMアプローチ:
生データアプローチ:
観察した在・不在データ
に基づく保護区選択
SDMで推定された分布確率
に基づく保護区選択
Which is better in what conditions?
目標保護区サイズ
1%
2.5%
(1000グリッド中の%)
5%
9.1%
(日本の国立・国定公園)
調査バイアス
大
モデル利用による改善度
調査バイアス
中
SDMが有益な範囲
調査バイアス
なし
調査範囲 (1000グリッド中の割合)
17%
(愛知目標)
SDMは全体に希少種の数が少ない保護区を選ぶ
出現地点が少ない種は、モデルの推定精度が低いため
生データに基づく場合、1カ所でも出現すれば考慮できる
保護区に含まれる
希少種の種数
調査範囲
保護区に含まれる種
のうち希少種の割合
調査データ
SDM
調査範囲
結論
SDMが有用になる条件
①目標保護区サイズが小さい
②調査範囲のバイアスが大きい
③調査範囲が狭い~中程度(目標保護区サイズに依存)
• SDMが有用な条件はかなり限定的
• これは、「SDMは希少種の分布推定精度が低い」「相補性に
よる保護区選択では希少種が重要」ということを考えると、自
明ともいえる
• 条件①②③を満たす状況は現実的に十分起こりえるもので
はある
• しかし、SDMが有利なパラメータ値はかなり狭い範囲なので、
現実のデータにおいてどれくらいの値に相当するのか、対応
付けが困難。
• 気候変動への応答予測などSDMを使わざるを得ない場合も
あるが、保護区選択でのSDM利用は慎重になるべきである。
モデルによるデータ不足の補完例
データ不足のタイプ
モデルでの対応例
在のみデータ
Pseudo‐absence(仮の不在)を適
切に選ぶことで偏りを補正
空間的偏り
空間的に網羅的でない
分布推定により補完 (外挿の可否
はケースバイケース)
座標精度が低い
精度を反映した分布推定
データの少ない種
同所的に出現する種、近縁種な
どの情報を利用
未発見の種
これまでの発見パターンから推
定
モデルのメリット

全体像を俯瞰できる(空間的俯瞰・要素の統合)

違うタイプのデータを連結できる
(分布データと環境、精度の違うデータ、空間、系統、形質)

持っている情報量を最大限活用し、わかり
やすい情報に変換できる
モデルの注意点
不確実性を伴う (ケースによっては致命的)
 仮定に依存


あくまでも持っている情報量の最大限の活用。
ない袖は振れない。
どんな改善法も劇的ではなく、情報量の分だけ、じんわりと効く

場合によっては、計算負荷が多大で、高い専
門性を要する、限られた数しか解析できない
保全科学が挑む情報のギャップ
保全科学
データの収集
生態学
得られる情報のギャップ
科学的知見の取得
保全生物(生態)学
研究-実務間のギャップ
現場での活用
保全活動・行政
保全科学が挑む情報のギャップ
保全科学
データの収集
生態学
得られる情報のギャップ
科学的知見の取得
保全生物(生態)学
研究-実務間のギャップ
現場での活用
保全活動・行政
モデル推定の‘ただしい‘?取り扱い
解析担当者
• モデルの前提
• 必要とするデータ
• 結果の精度
利用者
情報ギャップ
(現場、政策担当者)
• 利用目的(ニーズ)
• 目的に応じた精度・内容か?
• Noなら:モデルの結果を“たたき台”とし
て、次に何ができるか?