KOMPSAT-3/3A 광학 위성영상으로부터 산업단지 및 채석장 분류를 위한 GeoAI 데이터셋
GeoAI Dataset for Industrial Park and Quarry Classification from KOMPSAT-3/3A Optical Satellite Imagery
Article information
Trans Abstract
Air pollution is a serious problem in the world, and it is necessary to monitor air pollution emission sources in other neighboring countries to respond to the problem of air pollution spreading across borders. In this study, we utilized domestic and international optical images from KOMPSAT-3/3A satellites to build an AI training dataset for classifying industrial parks and quarries, which are representative sources of air pollution emissions. The data can be used to identify the distribution of air pollution emission sources located at home and abroad along with various state-of-the-art models in the image segmentation field, and is expected to contribute to the preservation of Korea’s air environment as a basis for establishing air-related policies.
1. 서론
대기오염은 그 영향이 국경을 넘어 확산되는 월경성 특성을 가지고 있어, 국내뿐만 아니라 인접 국가들에 대한 철저한 모니터링이 요구된다. 특히, 대한민국의 경우 대기오염물질 농도에서 국외 요인의 영향이 약 40-70%로 높게 추정되고 있어(Han et al., 2018; Kumar et al., 2021) 국제적 차원에서의 대기오염 문제 해결이 필요하다. 이러한 상황에서 해외 대기오염물질 배출원의 정확한 위치 정보는 오염물질의 이동과 분포를 이해하고, 원인을 추적하는 데 핵심적인 자료로 활용될 수 있다. 그러나 해외 대기오염 배출원에 대한 정보 획득은 물리적인 거리 및 접근성 제한과 같은 요소로 인해 상당한 어려움이 존재한다.
위성 원격탐사는 접근이 어렵거나 불가능한 대상에 대해 원격으로 정보를 획득하는 기술이다. 이는 접근성 제한, 물리적 거리, 또는 다른 제약 조건으로 인해 직접 탐사가 어려운 지역에 대한 정보 수집에 있어 매우 유용하다. 이와 같은 특성은 위성 원격탐사가 대기오염 배출원 데이터 수집 및 관리 분야에서 핵심적인 역할을 수행할 수 있음을 시사한다. 한편 위성 원격탐사 자료는 최근 인공지능 기법과의 접목을 통해 다양한 연구 분야에서 향상된 결과를 도출하고 있다(Kim et al., 2022). 위성영상으로부터 인공지능 기술을 적용하여 대기오염물질 배출원을 탐지한 사례는 거의 드물지만, 토지 피복이나 도시기능 지역 분할 연구에서 배출원과 유사한 객체를 효과적으로 구분한 연구 사례는 다수 존재한다(Baek et al., 2022; Zhang et al., 2018). 이러한 선행 연구를 바탕으로, 최신 인공지능 기술과 위성자료를 함께 활용한다면, 대기오염 배출원에 해당하는 객체를 보다 효과적으로 식별 가능할 것으로 예상된다.
이에 따라 본 연구에서는 KOMPSAT-3/3A 광학위성으로부터 촬영된 국내외 위성영상을 활용하여, 대표적인 대기오염 배출원에 해당하는 산업단지와 채석장을 분류하기 위한 AI 학습데이터셋을 구축하였다. 산업단지는 굴뚝을 통해 대량의 오염물질을 배출하며, 이는 대기오염 영향 분석에 있어 매우 중요한 오염원으로 간주된다. 또한 채석장은 채석 작업에서 발생하는 분진을 여과 시설 없이 대기 중으로 직접 배출하기 때문에, 탐지 필요성이 높은 오염원으로 인식된다. 구축된 산업단지 및 채석장 분류 데이터셋을 영상 분할 분야에서 뛰어난 성능을 보인 U-Net 네트워크에 적용하여 결과를 평가하였다.
2. 연구 자료
본 연구에서는 산업단지 및 채석장 분류를 위한 GeoAI 데이터셋 제작을 목표로 KOMPSAT-3/3A 위성영상을 수집하였다. 정확한 위치 정보를 가진 대한민국과 상대적으로 위치 정보가 부족한 주변 국가인 태국을 대상 지역으로 선정하여, 2021년부터 2022년 사이에 촬영된 영상 중 운량이 10% 이하인 영상을 선별적으로 수집하였다.
KOMPSAT-3/3A는 한국항공우주연구원에서 개발하고 운용 중인 국내 광학위성에 해당한다. KOMPSAT-3와 KOMPSAT-3A는 각각 0.7 m와 0.55 m에 해당하는 고해상도 광학영상을 제공한다. 본 연구에서는 해당 위성들의 특정 파장 대역을 활용하였으며, 이와 관련된 세부 사항은 Table 1에 나타나 있다.
3. 데이터 제작 방법
3.1 데이터 정제
KOMPSAT-3/3A 위성의 원시 데이터에 팬 샤프닝(pansharpening) 기술을 적용하여 고해상도 컬러 영상을 제작하였다. 이후 공간 해상도가 다른 두 종류의 센서 영상들을 동일한 딥러닝 모델에 적용하기 위해, 모든 영상을 1 m 해상도로 리샘플링하였다. 리샘플링 과정은 영상이 일관된 품질을 유지하도록 보장하며, 이는 모델 학습의 정확도 및 신뢰성을 향상하는 데 중요한 역할을 하여 필수적이다. 리샘플링된 영상에서 필요한 밴드(B, G, R)를 추출하여 이를 16비트의 Geo TIFF 형식으로 병합하는 작업을 수행하였다. 또한, 산업단지 및 채석장 위치와 크기를 기준으로 영상을 2,048×2,048 px2 또는 9,216×9,216 px2 크기로 잘라내어 원천 데이터를 정의하였다.
3.2 데이터 가공
본 연구에서 라벨 데이터는 course annotation 방식을 사용하여 산업단지와 채석장의 경계를 대략적으로 정의하였다. Fig. 1은 본 연구에서 제작한 산업단지와 채석장 라벨 데이터 예시를 나타낸다. 산업단지는 그 경계를 기준으로 내부 영역을 구획하였다. 이 과정에서 4차선 이상의 도로, 외곽 가로수, 초지는 제외하였으나 주차장은 포함하여 구획하였다. 채석장은 구조물을 기준으로 나지와 구분하여 구획하였으며, 근처에 위치한 시멘트 공장 등 사업장에 해당하는 객체는 산업단지로 분류하였다. 구획된 산업단지, 채석장 그리고 비대상지 영역에 순서대로 분류 코드 1, 2, 0을 할당하고 TIFF 형식으로 변환하였다.
3.3 AI 데이터셋 정의
데이터 정제 및 가공 단계를 거쳐 제작된 원천 데이터와 라벨 데이터를 딥러닝 학습에 적합한 512×512 px2 크기의 패치 데이터로 변환하였다. 패치 크기로 절단된 이미지 데이터는 99% 최대 최소 정규화 수식(Eq. 1) 적용하여, 각 이미지 패치마다 0에서 1 사이의 동일한 값의 분포를 갖도록 변환하였다.
변환된 학습 데이터를 훈련 및 테스트 목적으로 활용하기 위해 7 대 3의 비율로 분할하였다. 이때 훈련 데이터는 촬영 국가와 클래스에 따라 수량적인 불균형을 포함한다. 이는 데이터가 대한민국과 태국의 두 지역에서 수집되었으며, 각 지역마다 산업단지와 채석장이 차지하는 비율이 원래부터 서로 다르기 때문이다. 본 연구에서는 촬영 국가와 클래스별 데이터 불균형 문제를 해결하고자, 오버 샘플링과 데이터 증강 기법을 사용하였다. 이를 위해, 모든 데이터를 산업단지, 채석장, 산업단지·채석장, 배경 클래스로 구분하였으며, 훈련 데이터에서 각 클래스가 차지하는 비율을 Table 2와 같이 설정하여 오버 샘플링하였다. 이때 산업단지와 채석장이 결합된 영역을 포함하는 원본 데이터의 수량이 매우 부족하였기 때문에, 이를 해결하기 위해 컷믹스(CutMix) 증강 기법을 적용하여 네 개의 데이터를 부분적으로 결합한 데이터를 사용하였다. 이러한 방법은 데이터의 불균형 문제를 해결하여 AI 모델의 일반성을 향상시키는 역할을 한다.
4. 결과
본 연구에서는 효율적인 산업단지 및 채석장 분류를 위한 GeoAI 데이터 8,350셋을 구 축하였으며, 이 데이터셋은 훈련 데이터 7,000셋과 테스트 데이터 1,350셋으로 구성되어 있다. 구축된 데이터셋의 성능을 평가하기 위해 의미론적 분할에 뛰어난 성능을 보인 U-Net 모델을 적용하였다(Ronneberger et al., 2015). 그 결과, 모델 Accuracy는 0.85, F1-score는 0.78을 달성하였고, 산업단지와 채석장 클래스에 대한 F1-score는 각각 0.74와 0.82로 높은 성능을 나타냈다.
Fig. 2는 테스트 이미지 영상(A, D), 라벨 영상(B, E) 및 이에 해당하는 모델 추론 결과 영상(C, F)을 나타낸다. 산업단지에 대한 라벨 데이터 제작 시 산업단지 내부의 지형지물을 최대한 제외하였으나, 딥러닝 모델 추론 결과는 이러한 부분까지 산업단지로 인식하여 경계가 라벨과 다소 다른 경향을 보였다. 채석장의 경우, 예측 결과가 라벨 데이터에 비해 더 세밀하고 면밀하게 나타났다. 이러한 라벨 데이터와 예측 결과 간의 경계 표현 차이에도 불구하고, 실제 이미지 영상과의 비교 분석 결과 이 두 경향성 모두 유의미하게 나타났다. 이는 모델의 실제 성능이 연구에서 도출된 값보다 더 높을 수 있음을 암시하며, 본 연구 결과가 대기오염 배출원의 정확한 탐지에 유용할 것으로 기대된다.
5. 결론 및 토의
본 연구는 국내외 대표적인 대기오염물질 배출원에 해당하는 산업단지와 채석장을 효과적으로 분류하기 위해 대한민국과 태국 지역의 KOMPSAT-3/3A 영상 자료를 이용하여 AI 학습용 데이터셋을 구축하였다. 구축된 데이터셋을 U-Net 모델에 적용한 결과, 산업단지와 채석장 클래스에 대한 F1-score는 0.74와 0.82로 높게 도출되었다. 해당 데이터셋은 향후 대한민국과 태국에서 대기오염물질의 현황을 파악하고, 배출원을 탐지 및 모니터링하는 데 도움을 줄 것으로 예상된다. 특히, 탐지된 산업단지와 채석장의 위치 데이터는 정지궤도 환경 위성 GEMS를 통한 대기오염물질의 관측 결과와 결합하여 대기 관련 정책 수립 및 이행을 위한 중요도 높은 참고자료로 활용될 수 있다. 또한 태국 지역에 대해 입증된 분류 정확도는 대한민국의 대기오염물질 농도에 영향을 미치는 타국에 대한 향후 연구를 위한 기초자료로서 유용하게 활용될 것으로 기대된다.
Notes
Conflict of Interest
On behalf of all authors, the corresponding author states that there is no conflict of interest.
Funding Information
This work is financially supported by Korea Ministry of Land, Infrastructure and Transport (MOLIT) as 「Innovative Talent Education Program for Smart City」.
Data Availability Statement
The data that support the findings of this study are openly available in DataON at https://doi.org/10.22711/idr/1005.