토양물리 및 지형, 수문학적 개념을 도입한 기계학습 기반의 C-band Synthetic Aperture Radar 토양수분 산정 연구
A Study on C-band Synthetic Aperture Radar Soil Moisture Estimation Based on Machine Learning Using Soil Physics, Topography, and Hydrological Information
Article information
Trans Abstract
In this study, we applied machine learning to estimate soil moisture levels in South Korea by harnessing data from the Sentinel-1 C-band synthetic aperture radar (SAR). Our approach incorporated not only the relationship between backscattering coefficients and soil moisture but also diverse physical characteristics. This encompassed topographic information, soil physics data, and antecedent precipitation which is a hydrological factor influencing the initial condition of soil moisture. We applied a variety of machine-learning techniques and conducted a comprehensive analysis to compare the performance of each model.
1. 서론
2025년까지 차세대중형위성 2단계 개발사업의 일환으로 고성능 광역 차세대중형위성 3기가 개발 중이다. 그중, 수자원위성(차세대중형위성 5호; Compact Advanced Satellite 500-5)은 메인 센서로 C-band 영상레이더(synthetic aperture radar, SAR)가 탑재되어 기후변화 대비 물안보 확보 및 수재해 관리에 활용될 예정이다(Hwang et al., 2021). SAR은 날씨 및 주야 관계없이 지표면을 촬영 가능하기 때문에 광학위성 대비 우천 및 강설 시에도 수재해 관리에 적극적으로 대응이 가능한 장점이 있다.
SAR에서 관측되는 후방산란계수(backscattering coefficient)는 토양의 습윤도에 따라 증가하는 토양유전상수와 밀접한 연관이 있어 해당 관계를 기반으로 하는 토양수분 산정 연구가 계속해서 수행되고 있다. 토양수분은 다양한 수문학 및 기상학적 응용에 있어 중요한 상태 변수이며, 토양 및 대기 사이에서 발생되는 플럭스는 기후체계에 큰 영향을 미칠 수 있다(Seneviratne et al., 2010). 토양수분의 복합적인 영향은 가뭄 또는 홍수 등의 재해 상황에서 식생분포나 환경의 변화를 초래하는 등의 큰 영향을 끼칠 수 있다. 따라서 정량적인 토양수분의 파악은 더 나은 기상모형이나 수문모형의 성능과 더불어 의사결정에 기여할 수 있다(Chung et al., 2020).
SAR 기반의 토양수분 산정은 레이더 후방산란 모형으로 모의한 후방산란계수를 반전(inversion)시킴으로써 행해진다. 토양수분 산정을 위해 지표변수(수분량, 지표면거칠기 등), 레이더 센서의 구성과 후방산란계수의 물리적 관계를 바탕으로 하는 물리적 모형(Fung et al., 1992), 특정 지역의 토양수분과 SAR 신호 간의 관계를 활용하는 경험적 모형(Quesney et al., 2000; Zribi and Dechambre, 2003), 경험적 관계와 레이더 후방산란의 물리적 표현식과 결합한 준경험적 모형(Attema and Ulaby, 1978) 등이 개발되었으며, SAR 신호와 기계학습(machine learning) 기법을 활용한 토양수분 산정 모형의 개발이 증가하는 추세이다.
본 연구에서는 우리나라 전역을 대상으로 C-band SAR 센서가 탑재된 Sentinel-1 위성을 활용하여 기계학습 기반의 토양수분 산정을 수행하였다. 후방산란계수와 토양수분과의 관계뿐만 아니라 각 관측 지점의 다양한 물리적 특성을 고려하기 위해 지형 자료 및 토양물리학적 자료와 더불어 토양의 초기 함수 상태에 큰 영향을 주는 수문학적 인자인 선행강우 자료를 입력 자료로써 활용하였다. 또한, 다양한 기계학습 기법을 적용하고 각 모형의 성능을 비교 분석하였다.
2. 재료 및 방법
2.1 Sentinel-1
Sentinel-1은 중심주파수 5.404 GHz의 C-band SAR가 탑재된 Sentinel-1A 위성과 Sentinel-2B 위성이 2014년과 2016년에 발사되어 각 12일 간격으로 영상을 제공한다. Sentinel-1B 위성은 C-SAR 안테나 전원공급장치(C-SAR Antenna Power Supply unit)의 이상으로 2022년 8월 임무가 종료되어 이후의 자료 활용이 불가능한 상태이다(European Space Agency [ESA], 2022). 따라서 본 연구에서는 Sentinel-1A 위성영상만을 이용하여 연구를 수행하였다. 2014년부터 2022년까지 8년간의 자료를 수집하였으며, Sentinel-1의 path 중 54, 61, 127, 134번 path의 영상을 취득하여 총 966장의 scene을 수집하였다.
Sentinel-1 영상은 지표를 관측하 는 주요 모드인 Interferometric Wide (IW) swath 모드의 Ground Range Detected product를 수집하였다. 수집된 위성영상은 유럽우주국(ESA)에서 제공하는 전처리 도구인 Sentinel Application Platform (SNAP)을 활용하여 궤도 보정, 열 및 경계잡음(thermal and border noise) 제거, 방사보정, 스펙클(speckle) 제거, 지형 보정순으로 진행하였다. 전처리 후, 공간해상도 10 m의 Vertical transmit-Horizontal receive (VH)와 Vertical transmit-Vertical receive (VV) 편파 및 입사각(local incidence angle) 영상을 최종적으로 취득하였다. 또한, 지표의 식생의 영향을 고려하기 위한 SAR 기반의 편파자료로 산정 가능한 식생지수인 Polarimetric Radar Vegetation Index (PRVI; Chang et al., 2018)를 산정하여 연구에 활용하였다.
2.2 대상지역
본 연구는 대한민국 전역을 대상으로 하였다. 연구지역 내 실측 토양수분 관측자료는 농촌진흥청 농업기상관측(Rural Development Administration, 2011)에서 제공하는 관측지점 중 82개 지점의 지중 10 cm Time Domain Reflectometry 토양수분 자료를 활용하였다(Fig 1, Table 1). Table 1과 같이, 토양수분 관측지점마다의 지형적 특성이 동일하지 않기 때문에 토양수분 산정 시 이를 고려하기 위해 국 토지리정보원의 수치표고모형(digital elevation model, DEM)을 구축하였다. 또한, 경사도에 따라 달라지는 토양 수분의 거동을 고려하기 위해 open-source Geographic Information System (GIS) 프로그램 QGIS의 slope 모듈을 활용하여 경사도를 산정하고, 이를 활용하였다. 토양 물리학적 정보의 추출을 위해 농촌진흥청 흙토람(Rural Development Administration, 2010)에서 정밀토양도를 수집하였다. 정밀토양도는 유효토심, 배수등급, 침식등급 등 30종의 토양특성정보를 내포하고 있으며, 본 연구에서는 사토, 세토 및 점토함량, 유효토심, 토양용적밀도, 포화수분량 자료를 활용하였다.

Distribution map of Rural Development Administration (RDA) soil moisture stations used in this study.
수문학적 개념인 선행강우량은 Soil Conservation Service-Curve Number (Soil Conservation Service, 1972) 방법의 선행토양함수조건(antecedent moisture condition, AMC)에서 착안하여 모형의 입력 자료로 활용하였다. AMC를 대변하는 지표로서 일반적으로 5일 또는 30일의 선행강우량을 활용하며, 본 연구에서는 5일 선행강우량을 모형에 적용하였다. 선행강우량은 기상청 종관기상관측(Automated Synoptic Observing System)의 일 강수량자료를 수집하였으며, Sentinel-1A 위성영상이 수집된 일자로부터 선행 5일에 해당하는 자료를 활용하였다.
2.3 기계학습 기법
본 연구에서는 Sentinel-1 위성영상 및 다양한 보조자료를 기반으로 토양수분을 산정하기 위한 기계학습 기법으로 7가지(Multiple Linear Regression, MLR; Gaussian Process Regression, GPR; Random Forest Regression, RFR; Extreme Gradient Boosting, XGB; Light Gradient Boosting, LGB; Artificial Neural Network, ANN; Deep Neural Network, DNN) 모형을 활용하였다. 기본적인 regression 모형인 MLR 및 GPR을 제외한 모든 기계학습 기법의 hyperparameter의 tuning은 Scikit-learn 모듈의 RandomizedSearchCV를 활용하였으며, tuning을 진행한 hyperparameter의 목록은 Table 2와 같다. 검증 방안에 따른 목적함수는 Pearson’s correlation coefficient (CC), Spearman’s rank correlation coefficient (rho) 및 root mean square error (RMSE)를 활용하였다.
3. 연구 결과
3.1 입력자료의 구성
기계학습 기법을 활용한 토양수분 산정을 위해 활용한 입력자료의 구성을 정리하면 다음과 같다. 1) SAR 자료: Sentinel-1 VV 및 VH 편파, 입사각, PRVI, 2) 지형자료: 고도 및 경사도, 3) 토양물리자료: 사토, 세토 및 점토함량, 유효 토심, 토양용적밀도, 포화수분량, 4) 수문학적 자료: 5일 선행강우이다. 모든 자료는 Sentinel-1 위성영상과 동일한 영역 내에서 실측 토양수분 관측소의 위치에서의 점 단위 정보를 추출하여 데이터베이스화하였다. 추가적으로, 우리나라의 계절적 특성에 따른 토양수분 및 강수량 거동을 고려하기 위해 명목형 데이터인 계절 구분(봄: 1, 여름: 2, 가을: 3, 겨울: 4)을 추가하여 기계학습 기법에 적용하였다. 모든 기계학습 기법은 수집된 자료를 7:3으로 분할하여 훈련 및 테스트를 진행하였으며, k-fold cross validation을 활용하여 과적합을 방지하고자 하였다.
3.2 기계학습기법별 토양수분 모의 결과
Table 3와 Fig. 2에 기법별 토양수분 모의 결과의 성능을 비교하였다. 모의 정확도 측면에서 성능이 높은 상위 3개의 기법은 RFR, XGB, LGB의 tree형 기계학습 기법으로 나타났다. XGB의 경우, 훈련 단계에서 가장 좋은 성능을 보였으나(CC,1.000; rho, 1.000; RMSE, 0.035 vol.%), 완벽한 양의 선형 상관관계를 보이는 훈련단계에 대비하여 테스트 결과(CC, 0.806; rho, 0.816; RMSE, 6.071 vol.%)에서 차이가 발생하는 것을 볼 때 과적합이 발생하였음을 유추해 볼 수 있다. RFR과 LGB의 경우 훈련단계에서 XGB에 비해 낮은 성능을 나타냈으나(CC: 0.981, 0.989; rho: 0.979, 0.988; RMSE: 2.208 vol.%, 1.380 vol.%), 테스트 단계에서의 성능은 비슷하거나 높은 수준을 보였다(CC: 0.814, 0.812; rho: 0.803, 0.823; RMSE: 6.021 vol.%, 5.818 vol.%). 하지만 LGB의 경우 데이터의 수가 적을 시 과적합 문제의 발생 가능성이 보고된 바 있어 사용에 유의할 필요가 있다(Han and Joe, 2022). 신경망 계열의 기계학습기법인 ANN은 MLR 과 대비해 유의한 성능 차이가 나타나지 않았으나, DNN에서는 보다 성능이 높은 것을 확인할 수 있다. GPR의 경우 tree 계열 기계학습 기법과 신경망 계열의 모의 성능 사이의 정확도를 보였다(CC: 0.941, 0.789; rho: 0.928, 0.755; RMSE: 2.991 vol.%, 6.142 vol.%).

Scatter plots of observed and simulated soil moisture at the test state by each machine learning technique. (A) Multiple Linear Regression, (B) Gaussian Process Regression, (C) Random Forest Regression, (D) Extreme Gradient Boosting, (E) Light Gradient Boosting, (F) Artificial Neural Network, (G) Deep Neural Network. SM, soil moisture; CC, Pearson's correlation coefficient; rho, Sparman's rank correlation coefficient; RMSE, root mean square error.
Fig. 3은 RFR을 활용해 모의된 토양수분(녹색 원)과 실측 토양수분(흑색 실선), VV편파 후방산란계수(적색 마름모)를 2020-2022년 기간에 대한 시계열 그래프를 도시한 것이다. 삼척시 미로면 관측소(Fig. 3A)와 수원시 서둔동 관측소(Fig. 3B)에서는 실측 토양수분과 후방산란계수의 거동이 상당 부분 일치하였으며, 따라서 토양수분 모의 성능 또한 준수하였다(CC: 0.896, 0.874; rho: 0.849, 0.879; RMSE: 2.709 vol.%, 3.488 vol.%). 상대적으로 후방산란계수의 거동이 토양수분과 상이한 모습을 보인 원주시 흥업면 관측소(Fig. 3C)와 거제시 거제면 관측소(Fig. 3D)에서는 토양수분 모의 성능의 소폭 하락이 관찰되었으나(CC: 0.837, 0.844; rho: 0.777, 0.847; RMSE: 3.483 vol.%, 7.619 vol.%), 수문학적 개념인 선행강우를 포함한 다양한 변수들의 적용을 통해 실측 토양수분과 유사하게 모의가 가능함을 확인하였다.

Time series graph of the observed soil moisture (black solid line), simulated soil moisture (green circle), and co-polarized backscattering coefficient (red diamond) at the (A) 245825A002, (B) 441707D001, (C) 220844A001, and (D) 656933A001 station. CC, Person’s correlation coefficient; rho, Spearman’s rank correlation coefficient; RMSE, root mean square error.
Fig. 4는 RFR 기반의 토양수분 산정 모형을 이용해 생성한 공간토양수분과 해당 날짜의 Sentinel-1 VV 편파 영상을 도시한 것이다. 모형의 입력자료로서 토양물리적, 지형적 특성을 고려하였기 때문에 비슷한 SAR 신호의 세기를 보이는 지역이라도 상이한 토양수분 분포를 나타내는 것을 확인할 수 있다.
4. 결론 및 토의
본 연구에서는 Sentinel-1 C-band SAR 영상을 기반으로 다양한 보조자료 및 기계학습 기법을 활용해 토양수분 산정을 수행하였다. 토양수분의 지형적, 물리적 특성을 고려하기 위해 DEM 및 토양도 자료를 활용하고 수문학적 개념인 5일 선행강우량을 활용하여 7가지 기계학습 기법을 적용 및 비교 분석하였다. Tree 계열 기계학습 기법(RFR, XGB, LGB)과 GPR의 성능이 상대적으로 높았으며 신경망 계열의 기계학습 기법(ANN, DNN)의 성능은 다소 떨어졌다. 다만, 본 연구에서 tuning한 hyperparameter 이외에도 다양한 hyperparameter의 tuning을 수행한다면 개선의 여지가 있을 것으로 판단된다.
토양수분 모의 결과의 검증에 활용한 토양수분 관측소는 자료의 quality 측면에서 활용 가능한 자료를 확보할 수 있는 관측소를 선정한 바, 비교적 전국적으로 고르게 분포되어 있음에도 전라 지역의 관측소 개수는 상대적으로 적었다. 따라서, 농촌진흥청 이외에도 K-water, 기상청 및 한국수자원조사기술원에서 제공하는 실측 토양수분 자료 활용의 추가적인 검토가 필요하다고 판단된다. 또한, 계절적 영향을 고려하기 위해 명목형 계절구분 정보가 아닌 광학위성에서 산출되는 지표면온도, 적설분포 등의 산출물을 정량적인 독립변수로써 활용한다면 토양수분 모의의 정확도가 더욱 개선될 것으로 기대된다.
Notes
Conflict of Interest
On behalf of all authors, the corresponding author states that there is no conflict of interest.
Funding Information
This research was supported by The Development of Ground Operation System for Water Resources Satellite from K-water.
Data Availability Statement
The data that support the findings of this study are available on request from the corresponding author. The data are not publicly available due to privacy or ethical restrictions.