210 likes | 355 Views
地球観測衛星による 植生指標データからの 長期年間変動のモデリング -ML 法、 MAP 法を用いて -. 高知大学理学部 情報科学教室 吉岡和浩・本田理恵 JPGU 2008. はじめに. リモートセンシングによって地球環境データが長期間にわたって蓄積され、また、データの整備 ( 校正)が進んできた。 e.g, NOAA GIMMS (NDVI 1981 - 2006 の 25 年分) 他方、機械学習や統計学習の手法を利用して大量データから知識発見を行う“データマイニング”の研究が諸分野で発展している。
E N D
地球観測衛星による植生指標データからの長期年間変動のモデリング-ML法、MAP法を用いて-地球観測衛星による植生指標データからの長期年間変動のモデリング-ML法、MAP法を用いて- 高知大学理学部 情報科学教室 吉岡和浩・本田理恵 JPGU 2008
はじめに • リモートセンシングによって地球環境データが長期間にわたって蓄積され、また、データの整備(校正)が進んできた。 • e.g, NOAA GIMMS (NDVI1981-2006の25年分) • 他方、機械学習や統計学習の手法を利用して大量データから知識発見を行う“データマイニング”の研究が諸分野で発展している。 • リモートセンシングデータからも、データマイニング的アプローチにより有用な変動パターンの発見が可能になることが期待できる。
The GIMMS (Global Inventory Modeling and Mapping Studies) • 地球観測衛星 NOAA 7, 9, 11, 14, 16 , 17号搭載のAVHRR から構築されたNDVI(植生指標)のデータセット • 1981-2006年(25年分!) • Viewing geometry, 火山性エアロゾル, その他の影響要因の校正がなされている Color NDVI 植物 活動 黄色 小 小 緑 大 大 Year 2000 NDVI
Example of MODIS EVI Data • 問題点 • EVI, NDVIなど、植物活動指標は、大気、地表(雪など)、センサの状態などの影響により、ノイズや欠落を多く含み、そのまま扱うのが難しい
過去の検討例 This may cause the bias of the soluiton. • Zhang et al. 2003 • 恣意的な分割、欠落値補間による最小2乗法フィッティング • ML, MAP法による統計的モデリング(Honda 2006) • →一年単位のデータにしか対応していなかった。 c c c c EVI c c c c c T
本研究の目的 • 植生指標“多年”データのモデリングをデータマイニング的アプローチで検討する • ノイズ・欠落への高い耐性確保 →統計モデリングのアプローチ • スケーラビリティ確保 →大量データへの適用性 • 自動化 →恣意的なデータ操作を排除 • 高利用性確保 • モデル関数へのフィッテング問題とすることで、2次情報の抽出など利用性を高める→green up時期の推定など
モデル関数 • Piecewise ロジスティック関数(Zhang et al(2003),Honda(2006)) 区分境界 は、 得られたモデルの交点から 自然に決める
本研究で用いたパラメータ推定法 • Piecewise ロジスティック関数モデルに基づいて、より統計的に厳密なパラメータ推定法を用いる • Maximum Likelifood (ML) approach • モデルの周りに、観測値がある確率密度分布で存在することを仮定して、尤度を最大化するパラメータを決める • ノイズ分布をモデルに含めることができる • Maximum a Posterior (MAP) approach • ノイズ分布に加え、パラメータの分布がモデル自身に含まれる • データが欠落しているとき, MAP は、パラメータの確率密度分布を頼りにする • ノイズに加え、欠落への耐性が期待できる。
Maximum a Posterior (MAP) observation • 観測値がモデルの周りにガウス分布を すると仮定する。 • モデルパラメータの確率密度分布を仮定する。 • 事後確率を最大化するような、パラメータを求める model 事前確率 prior probability 事後確率 Posterior Probability
Prediction error • Take one time point from each time series and guess that value from the model built from the rest of the data. • Prediction Accuracy measure • Mean predictor * Fitting error (not a prdiction error)
実験 • 多年分の人工データに各方策を適用し、方策ごとの計算時間、精度の違いをみる。 • 各年数で50ケース試行 • 初期値の影響を軽減するため、1ケース当り20回の試行を行い、最も尤度または事後確率が高いものを解とする。
実験結果の評価方法 • 50ケースを通じての、反復回数・実行時間・誤差の平均値・標準偏差を算出 • 誤差は以下の式で算出 は、対象データ は推定結果
実験結果3-反復回数- で増加
実験結果4-実行時間- で増加
対策 • モデリング範囲を固定し、スライド • 範囲を5年とし、2年のオーバーラップを持たせる • →データの始点、終点付近の精度の維持の為 VI 日数
Application Accurate determination of Phenological transition dates Zhang et al (2003)
結果 • 本研究の手法は、ノイズ・欠落に耐性をもち、スケーラブルで、自動化可能、という、データマイニングに好ましい性質を備える可能性を確認した。 • ML, MAP法 • →ノイズ、欠落への耐性確保 • 年境界自動決定 • →人為的作業を排除しつつ、複数年になっても1年の時と同様の制度が確保できる • 推定範囲を区分化しスライド • 計算時間 から に削減→スケーラビリティ確保 • MAPのMLに対する優位性は明確には確認できず • 今後は、GIMMS, MODIS-EVIなど、現実の長期間、広範囲のデータでの検証を行っていく