生態学会63回全国大会 シンポジウム02 「保全科学が挑む情報のギャップ」 情報が欠如した種の分布を どうモデリングするか 国立環境研究所 石濱史子 保全科学が挑む情報のギャップ 保全科学 データの収集 生態学 得られる情報のギャップ 科学的知見の取得 保全生物(生態)学 研究-実務間のギャップ 現場での活用 保全活動・行政 情報の欠如 = どんぴしゃのデータがない モデリング = 他から情報を借りてきて補う メカニズムを仮定する 分布推定モデル(species distribution models; SDMs) 種の分布と環境条件との関係を推定する 生物の分布 = function(環境) Presence/absence or abundance of organisms (在/不在 or 個体数) Environment (e.g. elevation, temperature) 情報の欠如 = どんぴしゃのデータがない モデリング = 他から情報を借りてきて補う メカニズムを仮定する 生物の分布情報でよく問題になる データ不足のタイプ 在のみ 詳しくは https://dx.doi.org/10.6084/m9.figshare.4012398 空間的偏り 座標精度 出現頻度の少ない種 分類群の偏り 同定精度 発見率 そもそも発見されていない種 生物の分布情報でよく問題になる データ不足のタイプ 在のみ 空間的偏り 網羅的でない 座標精度 出現頻度の少ない種 分類群の偏り 同定精度 発見率 そもそも発見されていない種 分布推定モデル(species distribution models; SDMs) 種の分布と環境条件との関係を推定する 生物の分布 = function(環境) Presence/absence or abundance of organisms (在/不在 or 個体数) Environment (e.g. elevation, temperature) 分布推定モデルとは Species Distribution Model(SDM) 点だった情報を、面に、現在の分布を将来の推定 情報に、変換できる。 環境 分布 推定分布確率 + 標高 モデル推定手法の発達、GISにより環境情報の整備が 容易になったことなどに伴い、近年、もっとも多くの論 文が出ている研究トピックスの1つ 分布データでよく問題になる 情報不足のタイプ 在のみ 空間的偏り 座標精度 出現頻度の少ない種 分類群の偏り 同定精度 発見率 そもそも発見されていない種 生物の分布情報の種類 個体数データ 在/不在データ 在のみデータ 情報量 自分で取得 渡良瀬遊水地 (ラムサール湿地) ヨシ原面積約2500ha ヨシの草丈4m! 1.5 生物の分布情報の種類 個体数データ 在/不在データ 在のみデータ 情報量 博物館の標本情報を利用 GBIF 標本が採れた、ということしか わからない 在のみデータの問題点 在情報がない地点は 本当に対象種が生育していないのか、 単に調査されていないのか、 区別が付かない 詳しくは https://dx.doi.org/10.6084/m9.figshare.4012398 標高 不在情報がないと 環境条件との関係はわからない。 Presence/absence Presence/absence 在のみデータ Presence/absence Presence/absence モデルは不在情報が必要 在 + 不在 標高 標高 標高 在のみデータからどうやって分布推定す るか: pseudo‐absence “background”と呼ばれることもある 一定のルールに基づいて、仮の “不在” を在情 報がない場所から選ぶ どのように pseudo‐absence を選ぶかは分布推定 結果に重大な影響がある データの特性を考慮しながら、真の不在に近い範 囲をどうしたら選べるか考える必要がある pseudo‐absenceの選び方の例 在 近縁種の在 ランダム Target group background (推定される調査範囲) Pseudo‐absence 既知の在地点と環境 条件が異なるところを 選ぶ Pseudo‐absence (background) の選び方は 分布推定の結果に大きく影響する (= target group background) Elith et al. 2011 Diversity and Distributions 17:43‐57 分布データでよく問題になる 情報不足のタイプ 在のみ 空間的偏り → 補完(内挿)、外挿 座標精度 出現頻度の少ない種 分類群の偏り → JSDM 同定精度 発見率 そもそも発見されていない種 博物館の標本情報を利用 GBIF 同定の信頼性や座標精度、時 代などのばらつきが大きいの で、要注意! データクリーニング 1. 2. 3. 座標の有無をチェック マッピングしてOutlierを チェック 明らかな入力ミスを修正 (緯度経度が逆、表記法の不統一など) 4. 種名の入力ミス、シノニ ムの整理 博物館の標本情報を利用 座標がついていないものが大半なので、 ジオコーディングが必要 マメ科Dalbergia属のデータの場合 (GBIF等から取得) 座標精度 レコード件数 数m (GPS) 1245 10km以内 187 20km以内 447 50km以内 810 >50㎞ 222 座標精度は、地名のレベルから大まかに決定 座標精度の低いデータをどう扱うか? 1. 他のデータと同じように使う「全レコード法」 2. 精度が低いものは除いて使う 「切り捨て法」 もともとレコード数が少ない種が分布推定できなくなる (Dalbergiaの場合、全117種中、81種がレコード数<20) 3. 精度に応じた情報量を反映するように使う うまくできれば、データから最大限の情報を引き出すこと ができる 「座標ゆさぶり法」 座標精度の影響は その場所の環境勾配しだいである 環境値 気(温など ) 環境値の 誤差 座標精度 環境値の 誤差 座標精度 空間 環境勾配が大きい場所では 環境値の誤差が大きく、データの持つ情報量が低下する 精度に応じた情報量を反映するように使う 座標ゆさぶり法 座標精度に応じたノイズを乗せた点を使って分布推定を繰り返し、 平均をとる 元データ ノイズを乗せる 座標精度 この方法であれば、その場所の環境勾配に応じた影響を与えられる 4 人工データの生成 e nv_ true 3 2 1 0 緯度勾配と山が存在するときの気温変化を想 定し、空間軸に対して、平均的には一定の勾 配で増加、サインカーブで周期的に増減する。 環境値 ・環境・空間軸: 一次元、1000メッシュ 環境勾配をコントロール 0 200 400 600 800 Index 空間座標 ・座標誤差の設定 レコードごとに異なる座標精度を持つとし、 精度を乱数で決定。決定された精度に応 じた誤差を与えた。 0.08 空間 0.04 上記の環境分布と生物の環境応答に従って、 場所ごとの生物の在・不在を生成。 環境 0.00 ・分布データの生成 在・不在 最適な環境があるとし、二次関数で応答。 好みの幅や出現頻度は様々に変えながら分析。 好適度 ・生物の環境応答 0 20 40 60 80 1000 希少種(平均出現頻度10/1000)の場合 0.9 0.9 1.0 prev=0.01, env_sin_width=25 1.0 prev=0.01, pref_width=-80 0.8 0.7 0.6 0.5 急 • true_mean 0.8 0.7 0.5 0.6 true_mean 20 • 値 AUC 値 AUC 真のデータ 座標ゆさぶり法 切り捨て法 全レコード法 40 60 環境勾配 env_sin_w idth 80 100 緩い -80 -70 -60 -50 -40 -30 -20 -10 狭 pref_w idth 好みの幅 広 期待通り、環境勾配が大きく、好みの幅が狭いときに、 処理の効果が大きい。 座標ゆさぶり方法は、切り捨て法・全レコード法のいずれ よりもパフォーマンスが良い。 希少種(平均出現頻度10/1000)の場合 1.0 1.0 0.9 座標精度反映法 0.8 0.7 全レコード法 0.6 低精度レコード除去法 0.5 true_mean 0.8 0.7 0.5 0.6 真のデータ 座標ゆさぶり法 切り捨て法 全レコード法 真のデータ 値 AUC 値 AUC true_mean prev=0.01, env_sin_width=25 0.9 prev=0.01, pref_width=-80 20 急 40 60 環境勾配 env_sin_w idth 80 100 緩い -80 -70 -60 -50 -40 -30 -20 -10 狭 pref_w idth 好みの幅 広 期待通り、環境勾配が大きく、好みの幅が狭いときに、 処理の効果が大きい。 座標ゆさぶり方法は、切り捨て法・全レコード法のいずれ よりもパフォーマンスが良い。 普通種(平均出現頻度100/1000)の場合 0.9 0.9 1.0 prev=0.1, env_sin_width=250 1.0 prev=0.1, pref_width=-50 0.8 0.5 0.6 0.7 true_mean 0.8 0.7 0.5 0.6 true_mean 値 AUC 値 AUC 20 急 40 60 env_sin_w idth 環境勾配 80 100 緩い -80 -70 -60 -50 -40 -30 -20 -10 狭 pref_w idth 好みの幅 広 • いずれの方法でも、真のデータを使ったモデルとほとんど差が なく、座標精度の影響は意外なほど小さい。 ← 十分なレコード数があれば、誤差は平均的には打ち消されるから? マメ科Dalbergia属のデータに適用した場合 分布推定可能だった種数 手法 切り捨て法 (精度20km) 座標ゆさぶり 法 分析可能な 種数 種あたりの レコード数 (共通種のみ) 62 29.9 104 44.9 精度に応じた情報量を反映するように使う 座標ゆさぶり法 座標精度に応じたノイズを乗せた点を使って分布推定を繰り返し、 平均をとる 元データ ノイズを乗せる 座標精度を考慮したモデリングをすることで データの情報量を最大限、活用して 座標精度 希少種の分布推定を改善できた! この方法であれば、その場所の環境勾配に応じた影響を与えられる 分布データでよく問題になる 情報不足のタイプ 在のみ 空間的偏り 座標精度 出現頻度の少ない種 分類群の偏り → Joint SDM 同定精度 発見率 そもそも発見されていない種 Joint SDMとは 情報の欠如 = どんぴしゃのデータがない 他の種から モデリング = 他から情報を借りてきて補う メカニズムを仮定する 複数の種を同時に調査している場合は多い 種 場所 1 0 0 0 1 0 1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 1 0 1 1 1 1 1 1 0 1 1 0 1 1 0 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 0 0 これまでの分布推定は、この情報しか使っていなかった 種 場所 1 0 0 0 1 0 1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 1 0 1 1 1 1 1 1 0 1 1 0 1 1 0 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 0 0 分布情報には、まだ使える情報量が残っている! 種 場所 1 0 0 0 1 0 1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 1 0 1 1 1 1 1 1 0 1 1 0 1 1 0 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 0 0 分布情報には、まだ使える情報量が残っている! 種 多くの種の分布を 同時に推定して 種間の分布相関の情報 を活用する 場所 Joint SDM 1 0 0 0 1 0 1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 1 0 1 1 1 1 1 1 0 1 1 0 1 1 0 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 0 0 どうやって他種の情報を借りるか? :基本的アイディア 生物の分布に影響する環境条件には、簡単には測れ ない and/or 広域で得にくいものがある (微細環境、水分環境、土壌環境、etc) 分布に種間関係(競争、共生、餌資源・・)が影響して いることもある ⇒ 共通の(未観測の)環境や種間関係に依存する 種群は、期待より同時に出現しやすい/しにくい = 種間の分布相関のパターンから、未知の要因を 抽出できる 種 説明変数 サイト 既知の変数 で説明できない 種間相関 種 説明変数 サイト 種間相関の背景にある 隠れ変数 Warton et al. 2015 JSDMのメリット • 種間関係に関する情報が得られる、希少 種の情報も無駄にならない • 種間相関の導入により、現実に近いホット スポット推定ができる • 今後、活用可能であろう情報がさまざまに ある:空間相関、系統相関、形質情報 ホットスポット推定 生データそのまま 1種ごとのSDMを 足し合わせ 現実よりメリハリがなくなりがち (中くらいの多様性のところが多い) より現実的なホットスポット推定 Harris (2015)MEE 6, 465–473 サイトの頻度 種ごとに個別推定 JSDMで同時推定 サイト当たりの種数 より集中構造(=種間相関)のある 現実に近そうな推定結果 JSDMの限界 • 多種を扱うので、計算負荷が大きい • すべての個別の種の精度が劇的に改善するわ けではない • 隠れ変数を使うので、パターンは推定できても、メカニズムは推 定できない(仮説作りの参考にはなる) • 収束の改善のためにさまざまな仮定を置くので、対象とする群集 に当てはまるかどうか モデルによるデータ不足の補完例 データ不足のタイプ モデルでの対応例 在のみデータ Pseudo‐absence(仮の不在)を適 切に選ぶことで偏りを補正 空間的偏り 空間的に網羅的でない 分布推定により補完 (外挿の可否 はケースバイケース) 座標精度が低い 精度を反映した分布推定 出現頻度の少ない種 同所的に出現する種、近縁種な どの情報を利用 未発見の種 これまでの発見パターンから推 定 しかし・・・ モデルを使うことで かえって悪化する場合も あります! 保護区選択でのSDM利用 保護区選択は生物多様性保全の最も基本的な方法の1つ 保護区の選択をするとき、すべての生物の全地域での分 布情報が揃っているが望ましい. 調査データの制約: • 限られた調査範囲 • 調査範囲や努力量の偏り • 誤同定や見逃しによる誤差 分布推定モデル (SDMs) は これらの制約を軽減するのに役に立つとされる 理屈で考えても 分布推定モデルがいつも役に立つとは限らない データの制約はモデルの推定精度にも影響する。 による利益 SDM • • 調査範囲が過小なとき: 良いモデルの推定が困難 調査範囲が十分に広いとき: モデルは不要 調査範囲 SDMが役に立つかどうかは、様々な条件次第のはず 目的: 真の分布が把握できるシミュレーションデータを用いて 分布推定モデルが保護区選択に役に立つ条件を明らか にする. 1. 調査範囲の広さ 2. 目標保護区サイズの大きさ 3. 調査範囲のバイアスの大きさ SDMアプローチ: 生データアプローチ: 観察した在・不在データ に基づく保護区選択 SDMで推定された分布確率 に基づく保護区選択 Which is better in what conditions? 目標保護区サイズ 1% 2.5% (1000グリッド中の%) 5% 9.1% (日本の国立・国定公園) 調査バイアス 大 モデル利用による改善度 調査バイアス 中 SDMが有益な範囲 調査バイアス なし 調査範囲 (1000グリッド中の割合) 17% (愛知目標) SDMは全体に希少種の数が少ない保護区を選ぶ 出現地点が少ない種は、モデルの推定精度が低いため 生データに基づく場合、1カ所でも出現すれば考慮できる 保護区に含まれる 希少種の種数 調査範囲 保護区に含まれる種 のうち希少種の割合 調査データ SDM 調査範囲 結論 SDMが有用になる条件 ①目標保護区サイズが小さい ②調査範囲のバイアスが大きい ③調査範囲が狭い~中程度(目標保護区サイズに依存) • SDMが有用な条件はかなり限定的 • これは、「SDMは希少種の分布推定精度が低い」「相補性に よる保護区選択では希少種が重要」ということを考えると、自 明ともいえる • 条件①②③を満たす状況は現実的に十分起こりえるもので はある • しかし、SDMが有利なパラメータ値はかなり狭い範囲なので、 現実のデータにおいてどれくらいの値に相当するのか、対応 付けが困難。 • 気候変動への応答予測などSDMを使わざるを得ない場合も あるが、保護区選択でのSDM利用は慎重になるべきである。 モデルによるデータ不足の補完例 データ不足のタイプ モデルでの対応例 在のみデータ Pseudo‐absence(仮の不在)を適 切に選ぶことで偏りを補正 空間的偏り 空間的に網羅的でない 分布推定により補完 (外挿の可否 はケースバイケース) 座標精度が低い 精度を反映した分布推定 データの少ない種 同所的に出現する種、近縁種な どの情報を利用 未発見の種 これまでの発見パターンから推 定 モデルのメリット 全体像を俯瞰できる(空間的俯瞰・要素の統合) 違うタイプのデータを連結できる (分布データと環境、精度の違うデータ、空間、系統、形質) 持っている情報量を最大限活用し、わかり やすい情報に変換できる モデルの注意点 不確実性を伴う (ケースによっては致命的) 仮定に依存 あくまでも持っている情報量の最大限の活用。 ない袖は振れない。 どんな改善法も劇的ではなく、情報量の分だけ、じんわりと効く 場合によっては、計算負荷が多大で、高い専 門性を要する、限られた数しか解析できない 保全科学が挑む情報のギャップ 保全科学 データの収集 生態学 得られる情報のギャップ 科学的知見の取得 保全生物(生態)学 研究-実務間のギャップ 現場での活用 保全活動・行政 保全科学が挑む情報のギャップ 保全科学 データの収集 生態学 得られる情報のギャップ 科学的知見の取得 保全生物(生態)学 研究-実務間のギャップ 現場での活用 保全活動・行政 モデル推定の‘ただしい‘?取り扱い 解析担当者 • モデルの前提 • 必要とするデータ • 結果の精度 利用者 情報ギャップ (現場、政策担当者) • 利用目的(ニーズ) • 目的に応じた精度・内容か? • Noなら:モデルの結果を“たたき台”とし て、次に何ができるか?
© Copyright 2024 ExpyDoc