1. 서 론
2. 연구 동향
2.1 딥러닝 기반 터널 손상 검출 기술 동향 및 한계
2.2 무참조 이미지 품질 평가(NR-IQA) 기법
2.3 기존 연구의 한계 및 본 연구의 차별성
3. 연구 방법
3.1 연구 프레임워크
3.2 실험 데이터셋 구축
3.3 딥러닝 모델 학습 및 성능 평가
4. 실험 결과 및 분석
4.1 CNN 학습 결과
4.2 NR-IQA 기반 이미지 품질 점수 산출
4.3 NR-IQA 지표와 CNN 성능 간 상관관계 분석
5. 결 론
1. 서 론
터널 콘크리트 라이닝에 발생하는 균열은 구조물의 안전성과 내구성을 평가하는 핵심 지표로, 균열을 정확히 검출하는 것은 터널 유지관리의 최우선 과제이다(Ni et al., 2019). 최근에는 이동식 터널 스캐닝 장비(mobile tunnel scanning systems, MTSSs)를 활용하여 터널 내부를 신속하고 정밀하게 모니터링하려는 노력이 확대되고 있다(Huang et al., 2017). MTSSs는 효율적인 데이터 수집과 분석을 통해 유지관리의 비용을 절감하고 안전성을 높이는 데 기여하고 있다. 장비로 취득한 방대한 영상 데이터를 딥러닝(deep learning, DL)으로 분석하는 손상 검출 기술이 크게 주목받고 있다(Alidoost et al., 2022).
DL의 합성곱 신경망(convolutional neural network, CNN)을 기반으로 한 객체 탐지(object detection)나 의미론적 분할(semantic segmentation) 등의 기술은 터널 표면의 결함을 효과적으로 분석할 잠재력을 보여주었다(Liu et al., 2019). 여러 연구에서 Faster R-CNN, YOLO, U-Net과 같은 모델을 통해 균열 검출의 정확도를 높이는 성과가 있었으나, 실제 현장에 적용하기에는 여전히 중요한 기술적 문제가 남아있다(Bae et al., 2020; Li et al., 2021). 가장 핵심적인 문제는 DL 모델의 성능이 학습에 사용되는 이미지의 품질에 결정적으로 좌우된다는 점이다. MTSS는 고속으로 이동하며 촬영하기 때문에 차량의 진동이나 카메라의 노출 시간 등으로 인해 모션 블러(motion blur, MB)가 필연적으로 발생한다. MB는 이미지의 품질을 저하시켜 미세 균열의 탐지를 어렵게 만드는 주된 원인이 된다(Liu et al., 2020).
실제로 데이터 과학 분야에서는 새로운 알고리즘을 개발하는 시간보다 학습에 적합한 양질의 데이터를 수집하고 가공하는 데 전체 프로젝트 시간의 80% 이상이 소요될 만큼 데이터 품질의 중요성이 강조되고 있다(Whang et al., 2023). 그러나 현재까지의 터널 손상 검출 연구는 대부분 새로운 DL 알고리즘 개발에 집중되어 있으며, 데이터의 품질 문제를 체계적으로 다룬 연구는 부족한 실정이다(Lee et al., 2024). 자동화된 검출 시스템의 신뢰도를 높이기 위해서는, 우선 이미지의 품질을 객관적으로 평가하고 이를 기반으로 데이터를 관리하는 방안이 반드시 필요하다.
본 연구는 이러한 문제의 해결 방안으로 무참조 이미지 품질 평가(no-reference image quality assessment, NR-IQA) 기법에 주목하였다. NR-IQA는 원본(참조) 이미지 없이 촬영된 이미지 자체의 통계적 특성만을 분석하여 품질을 정량적인 점수로 평가하는 기술이다(Wang et al., 2004; Wu et al., 2015). MTSSs를 활용하여 터널 현장에서 왜곡되지 않은 완벽한 참조 이미지를 확보하기 어려운 실제 환경에서는 NR-IQA 방식의 적용이 요구된다.
본 연구의 최종 목표는 MTSSs로 취득된 이미지에 NR-IQA 기법을 적용하여 MB로 인한 저품질 이미지를 효과적으로 선별하고, CNN 기반 균열 검출 모델의 성능과 안정성을 향상시키는 방안을 제시하고 적용 가능성을 검토하는 것이다. 실제 MTSS로 촬영한 터널 영상 데이터에서 발생하는 복합적인 MB의 특성을 정확히 추정하기 어렵다. 그러므로 가우시안 블러(Gaussian blur) 필터를 이용하여 수평 방향의 MB 특성을 모사하고 이를 평가 도구로 활용하는 접근법을 제안한다. 실제 MTSS 촬영 이미지를 활용하여 MB 이미지셋을 생성하고, 다양한 NR-IQA 지표와 CNN 모델의 균열 검출 성능 간의 상관관계를 분석하였다. 실제 MTSS에서 취득한 이미지에 대한 NR-IQA 기법의 적용 가능성을 검토하고자 한다.
2. 연구 동향
2.1 딥러닝 기반 터널 손상 검출 기술 동향 및 한계
터널 콘크리트 라이닝의 균열 정보는 안전성과 내구성을 평가하는 핵심적인 기초 데이터이며, 균열을 정확하게 검출하는 기술은 매우 중요하다. DL 기반 손상 검출 연구는 주로 이미지 분류, 객체 탐지, 의미론적 분할의 세 가지 접근법으로 나뉘며, 각각 이미지, 객체, 픽셀 수준에서 시각 정보를 제공한다(Guo et al., 2024).
이미지 분류는 입력된 이미지를 ‘균열’ 또는 ‘정상’과 같이 단일 클래스로 판별하는 작업이다. AlexNet, VGG networks, GoogLeNet, ResNet 등과 같은 CNN 아키텍처가 콘크리트 표면 손상 분류에 광범위하게 사용되었다(Krizhevsky et al., 2017; Simonyan and Zisserman, 2014; Szegedy et al., 2015; He et al., 2016). 이 방식은 다양한 손상 유형과 심각도를 자동으로 분류하는 데 큰 발전을 이끌었지만, 이미지 전체를 단일 개체로 처리하므로 손상의 정확한 위치를 특정하지 못하는 근본적인 한계가 있다.
위치 파악의 한계를 극복하기 위한 객체 탐지는 경계 상자를 이용하여 이미지 내 각 손상의 위치와 범위를 식별하였다. 이를 통해 심각도가 다른 여러 손상을 동시에 탐지할 수 있다. 객체 탐지 모델은 지역 기반 탐지기(예: Faster R-CNN)와 단일 단계 탐지기(예: SSD, YOLO)로 나뉜다(Ren et al., 2015; Redmon et al., 2016). 객체 탐지 알고리즘은 균열의 위치를 찾는 데는 강점이 있지만, 각도와 방향이 다양한 얇은 띠 형태인 균열의 정확한 형상이나 크기 정보를 제공하지 못하는 한계가 있다.
가장 정밀한 접근법인 의미론적 분할은 각 픽셀에 클래스를 할당하여 픽셀 수준에서 손상 영역을 추출하는 기술이다. 이를 통해 생성된 상세한 마스크는 손상의 경계를 명확히 설명하고, 결함의 크기, 밀도 등 정량적 분석을 가능하게 하여 객관적인 손상 평가를 지원한다. 최근 많은 연구가 표면 손상 탐지를 위해 의미론적 분할로 전환하고 있으며, fully convolutional network (FCN), U-Net, DeepLab, SegNet 등 다양한 프레임워크가 제안되었다(Long et al., 2015; Badrinarayanan et al., 2017; Chen et al., 2018; Yang et al., 2018; Liu et al., 2019; Dong et al., 2019).
앞서 언급한 DL 기술들이 성공적으로 균열을 탐지할 수 있었음에도 불구하고, 이 모델들의 성능은 다양한 조건에서 수집된 이미지의 품질에 크게 좌우된다는 근본적인 문제가 남아있다. 특히 MTSSs는 차량 진동과 고속 이동으로 인해 이미지에 MB와 해상도 저하를 유발하여, 이미지 정보의 손실로 이어져 0.3 mm 미만의 미세 균열 탐지를 어렵게 만든다.
이러한 문제를 해결하기 위하여, 저해상도 이미지로부터 고해상도 이미지를 복원하는 초해상도 복원(super-resolution reconstruction, SRR) 기술이 DL 기반으로 활발히 연구되고 있다(Yang et al., 2019). super-resolution convolutional neural network (SRCNN)을 시작으로 super-resolution generative adversarial network (SRGAN), enhanced deep super-resolution (EDSR), residual channel attention network (RCAN) 등 다양한 SRR 네트워크가 개발되었다(Dong et al., 2014; Ledig et al., 2017; Lim et al., 2017; Zhang et al., 2018).
SRR을 통해 개선된 이미지의 품질을 평가하는 데 사용되는 전통적인 지표인 PSNR (peak signal-to-noise ratio)과 SSIM (structural similarity index metric)은 명확한 한계를 가진다. PSNR은 픽셀 단위의 오차를 기반으로 하므로, 수치상으로는 높아도 인간이 인지하는 시각적 품질이나 질감의 디테일을 제대로 반영하지 못한다(Ferwerda, 2003). SSIM은 휘도, 대비, 구조를 비교하여 인간의 시각적 인식과 유사성을 높였지만, 공간적 이동이나 회전, 조명 변화에 민감하다. 텍스처(질감)가 적고 조도가 낮은 터널 환경에서는 성능이 불안정하며, MB와 같은 특정 왜곡을 평가하는 데 인간의 인식과 상반된 결과를 보일 수 있다(Abdullah-Al-Mamun et al., 2021).
결론적으로, 터널 스캐닝 시스템으로 촬영한 이미지, 특히 MB가 포함된 이미지의 품질을 기존의 PSNR이나 SSIM 같은 참조 기반 평가 지표로 논하는 것에는 한계가 명확하다. 이는 참조할 원본 이미지가 없을 뿐만 아니라, 지표 자체가 특정 환경과 왜곡을 평가하는 데 부적합하기 때문이다. 실제 환경에 적용 가능하고 인간의 인식과 상관성이 높은 새로운 방식의 이미지 품질 평가 방법론의 도입이 요구된다.
2.2 무참조 이미지 품질 평가(NR-IQA) 기법
이미지 품질 평가(image quality assessment, IQA)는 이미지의 시각적 품질을 예측하는 기술로, 인간의 시각을 바탕으로 하는 주관적 평가와 알고리즘 기반의 객관적 평가로 나뉜다(De and Masilamani, 2013). 자동화 시스템에서는 대량의 데이터를 처리하기 위해서는 객관적 평가가 필수적이며, 참조 이미지의 의존도에 따라 전체 참조(full reference, FR), 부분 참조(reduced reference, RR), 그리고 무참조(no reference, NR) 방식으로 분류된다(Wang et al., 2004). FR-IQA와 RR-IQA는 각각 완전하거나 부분적인 원본 참조 이미지가 필요하다(Golestaneh and Karam, 2016). 하지만 MTSSs와 같이 현장에서 왜곡되지 않은 이상적인 참조 이미지를 확보하는 것이 불가능하다. 실제 응용 환경에서는 참조 이미지가 전혀 필요 없는 NR-IQA 방식이 유일한 현실적인 대안이라 할 수 있다(Lu et al., 2015; Wu et al., 2015).
전통적인 NR-IQA 기법은 주로 자연 영상 통계(natural scene statistics)에 기반한다. 왜곡되지 않은 고품질의 자연 이미지가 특정 통계적 특성을 따른다는 가정하에, 평가하려는 이미지가 이 통계적 모델에서 얼마나 벗어나는지를 측정하여 품질 저하를 예측하는 방식이다. 이러한 접근법에 기반한 대표적인 모델은 다음과 같다.
BRISQUE (blind/referenceless image spatial quality evaluator): 이미지의 공간 도메인에서 직접 특징을 추출하는 모델이다. 픽셀의 밝기 값을 국부적으로 정규화한 MSCN (mean subtracted contrast normalized) 계수의 분포를 분석하여 품질 점수를 산출한다. 별도의 복잡한 변환 과정이 없어 계산이 빠르다는 장점이 있다(Mittal et al., 2012).
NIQE (natural image quality evaluator): 인간의 주관적 평가 점수 데이터 없이 설계된 ‘완전 블라인드’ 모델이다. 사전에 구축된 고품질 자연 이미지의 통계 모델과 입력 이미지의 통계적 특징 간의 거리를 측정하여 품질을 평가한다. 특정 왜곡 유형에 대한 사전 학습이 필요 없어 범용성이 높다(Mittal et al., 2013).
PIQE (perception-based image quality evaluator): NIQE와 마찬가지로 주관적 평가 점수 없이 작동하는 모델이다. 이미지를 여러 블록으로 나누어 왜곡 정도를 추정한 후, 인위적인 노이즈(white noise)와 압축 왜곡(blocking artifact)과 같은 인지적으로 두드러지는 왜곡 유형을 중심으로 품질을 평가한다(Venkatanath et al., 2015).
CPBD (cumulative probability of blur detection): 앞선 모델들과 달리 이미지의 전반적인 품질이 아닌 ‘선명도(sharpness)’ 또는 ‘흐림(blur)’ 정도에 특화된 지표이다. 이미지 내의 엣지(edge)를 감지하고, 인간이 ‘흐리다’고 인지하는 임계치와 비교하여 흐림의 누적 확률을 계산한다. 이 값은 이미지의 선명도를 나타내는 척도로 사용될 수 있다(Narvekar and Karam, 2011).
최근에는 DL 기반의 NR-IQA 방법이 비약적으로 발전하며 연구의 주류를 이루고 있다. 과거에는 레이블이 지정된 대규모 데이터셋의 부족과 학습 과정의 과적합(overfitting) 문제가 주요 과제였으나(Zhu et al., 2020), 다양한 최신 기술을 통해 그 한계를 극복하고 있다.
2.3 기존 연구의 한계 및 본 연구의 차별성
앞선 절들에서 살펴본 바와 같이, DL 모델은 균열을 높은 정확도로 탐지할 잠재력을 보여주었으며, NR-IQA는 참조 이미지 없이도 이미지의 품질을 신뢰도 높게 평가할 수 있는 다양한 도구를 제공한다.
그러나 이 두 분야를 접목하여 MTSSs의 실질적인 성능 향상을 도모하려는 연구는 아직 초기 단계에 머물러 있다. 대부분의 균열 검출 연구는 DL 모델의 구조 개선에 집중할 뿐, 성능 저하의 근본 원인인 입력 데이터의 품질 문제를 다루지 않았다. 반대로, NR-IQA 연구는 주로 일반적인 이미지의 왜곡 평가에 초점을 맞추어, 균열 검출이라는 특정 공학적 과업의 성공률과 품질 점수 간의 상관관계를 깊이 있게 분석한 사례가 드물다.
최근 이러한 연구 공백을 메우려는 시도로, Pennada et al. (2023)은 전통적 NR-IQA 기법인 BRISQUE를 활용하여 저품질 이미지를 필터링함으로써 DL 모델의 성능이 향상됨을 보여주었다. 이는 NR-IQA의 적용 가능성을 제시한 중요한 연구이지만, 단일 NR-IQA 모델(BRISQUE)의 적용성에만 한정되었으며 MTSSs에서 발생하는 특정 왜곡, 특히 방향성 MB에 대한 유효성은 충분히 검증되지 않았다는 한계를 가진다(Giniatullin et al., 2024).
본 연구는 BRISQUE, NIQE, PIQE, 그리고 블러에 특화된 CPBD 등 다양한 전통적 NR-IQA 모델들을 종합적으로 비교 분석하여, 터널 환경에서 발생하는 특정 품질 저하 요인(특히 방향성 MB)을 가장 잘 평가하는 지표가 무엇인지 규명하고자 한다. 단순히 이미지 품질 점수를 제시하는 것을 넘어, 이 품질 점수와 실제 DL 균열 검출 모델의 성능 간의 상관관계를 정량적으로 분석한다. 이를 통해 좋은 품질이 실제로 높은 검출 성능으로 이어진다는 가설을 실험적으로 증명하고자 한다.
3. 연구 방법
3.1 연구 프레임워크
무참조 이미지 품질 평가(NR-IQA)를 이용한 터널 손상 검출 성능 향상이라는 연구 목표를 달성하기 위한 연구 방법은 다음과 같다. 연구는 크게 (1) 실험 데이터셋 구축, (2) NR-IQA 기반 품질 평가, (3) DL 모델 학습 및 성능 비교 분석의 세 단계로 진행하였다.
본 연구의 전체적인 수행 절차는 Fig. 1과 같다. 실제 MTSS로 촬영한 원본 이미지를 기반으로 수평 방향성을 갖는 MB를 단계별로 적용하여 실험용 데이터셋을 구축하였다. 구축된 데이터셋의 모든 이미지에 대해 BRISQUE, NIQE, PIQE, CPBD 등 다양한 전통적 NR-IQA 모델을 적용하여 품질 점수를 산출하였다. 기준 데이터셋과 품질 점수 기반으로 필터링된 데이터셋 각각을 사용하여 의미론적 분할 모델인 Dynamic U-Net을 학습시켰다. 동일한 테스트 데이터셋에서 각 모델의 성능을 비교 평가하여 NR-IQA 기반 필터링의 유효성을 CNN 균열 검출 성능과 비교 검증하였다.
3.2 실험 데이터셋 구축
원본 데이터셋은 실제 터널 환경에서 MTSS를 이용하여 촬영된 이미지 데이터를 정제하여 구축하였다(Fig. 2). 데이터 취득 과정에서 사용된 MTSS는 4K 해상도의 라인스캔(line-scan) 카메라를 탑재하고 있으며, 1.0 mm/pixel의 해상도로 최대 80 km/h의 속도로 터널 내부를 촬영할 수 있다(Lee et al., 2020). 수집된 원본 이미지들은 정제 및 전처리 과정을 거쳐, 최종적으로 512 × 512 크기의 이미지 27,736개로 구성된 데이터셋을 구축하였다.
MTSS에서 발생하는 핵심적인 품질 저하 요인인 방향성 MB를 모사하기 위해, 원본 이미지에 인위적인 블러를 적용하였다. 차량의 주행 방향을 고려하여 수평 방향의 가우시안 필터를 적용하여 중심 픽셀을 기준으로 좌우로 확산되는 블러의 범위를 10에서 50까지 단계적으로 증가시키면서 이미지 데이터를 생성하였다. Fig. 3과 같이 원본 이미지를 포함하여 6개(원본 + 5종 MB)의 데이터셋을 구성하였다(Lee et al., 2024).
MTSS 데이터셋에서 균열은 전체 이미지의 5%로 매우 낮아, 실험 데이터를 무작위로 추출할 경우 균열이 없는 이미지가 과도하게 포함될 가능성이 높다. 실험 데이터 내에서 균열의 분포를 보다 균형 있게 유지하기 위해, mask 파일에서 균열이 포함된 픽셀 수를 기준으로 이미지를 정렬하였다. 균열이 많이 포함된 상위 1/3 구간에서 100개, 균열이 중간 정도 포함된 중위 1/3 구간에서 100개, 균열이 거의 포함되지 않은 하위 1/3 구간에서 100개를 선정하였다. 각 구간에서 무작위로 샘플을 추출하여 실험 데이터를 구성함으로써, 균열의 분포가 균형 있게 포함될 수 있도록 조정하였다.
3.3 딥러닝 모델 학습 및 성능 평가
전이 학습을 적용한 CNN 모델을 활용하여 균열 검출 성능을 분석하기 위해 의미론적 분할의 U-Net 아키텍쳐를 활용하였다. 전이학습 기반 CNN 모델의 균열 검출 성능을 평가하기 위해 파이썬(Python)의 딥러닝 라이브러리인 Fastai를 활용하였다. 모델 학습에는 U-Net의 일종인 Dynamic UNet을 사용하였다. Dynamic UNet은 다양한 인코더(encoder)를 사용하여 특징맵(feature map)을 추출하고 이와 대칭적인 디코더(decoder)를 구성하여 원본 이미지와 동일한 크기의 출력을 생성한다. 레이어의 입출력 U-Net의 인코더는 보통 사전 학습된 상태로 사용되며, ImageNet과 같은 대규모 데이터셋에서 학습된 가중치를 활용한다. 이를 통해 모델의 학습을 가속화하고, 일반화 성능을 향상시킬 수 있다(Yang et al., 2025). 본 연구에서 구축한 6종의 MB 데이터셋을 활용하여, 특징 추출(feature extraction)을 담당하는 백본(backbone)으로 사전 학습된 ResNet-34 네트워크를 사용하였다.
CNN 모델의 성능을 분석하기 위해 재현율(recall), 선택성(selectivity), 정밀도(precision), 정확도(accuracy)와 F1-score을 포함한 통계적 지표를 사용하였다. 재현율은 실제 긍정 케이스 중 모델이 올바르게 예측한 비율이다. 정확도는 전체 케이스 중에서 올바르게 예측된 케이스의 비율이며, 정밀도는 긍정으로 예측된 케이스 중 실제로 긍정인 케이스의 비율을 나타낸다. 선택성은 TN (true negative)을 식별하는 모델의 성능을 측정하는 비율이며, F1-score는 재현율과 정밀도의 조화평균으로 두 지표의 균형을 고려한 평가지표이다. 평가 지표의 값이 높을수록 평가된 모델의 성능이 더 좋다는 것을 의미한다. 이러한 지표의 수학적 표현은 식 (1), (2), (3), (4), (5)와 같다.
여기서, TP (true positive)은 모델이 긍정으로 올바르게 예측한 경우의 수, FP (false positive)는 모델이 긍정으로 잘못 예측한 경우의 수, TN은 모델이 부정으로 올바르게 예측한 경우의 수 그리고 FN (false negative)는 모델이 부정으로 잘못 예측한 경우의 수를 의미한다.
4. 실험 결과 및 분석
4.1 CNN 학습 결과
본 절에서는 MTSS에서 촬영된 이미지에 MB 강도를 단계적으로 적용하여 생성된 데이터셋을 이용하여 학습된 CNN 모델의 균열 검출 성능을 정량적으로 분석하였다.
Table 1은 각 MB 강도(0, 10, 20, 30, 40, 50)에 대해 학습된 모델의 성능을 나타내며, MB 강도가 증가함에 따라 균열 검출 성능이 급격히 저하되는 경향을 확인할 수 있다. MB가 적용되지 않은 원본 이미지의 경우, F1-score는 89.43%로 가장 높은 값을 기록하였으며, 재현율과 정밀도 역시 각각 93.41%와 85.77%로 높은 수준을 보였다. 이는 모델이 균열을 효과적으로 검출하고 잘못된 예측도 적었음을 의미한다.
MB 강도 10만 적용해도 재현율은 57.67%로 급감하며, F1-score는 67.83%로 낮아졌다. MB가 균열 패턴의 시각적 특성을 손상시켜 모델이 균열을 탐지하지 못하는 사례가 급증했음을 나타낸다. MB 강도 20에서는 재현율이 24.31%까지 감소하고 F1-score는 37.59%에 불과하여, MB 강도 증가에 따른 성능 저하가 더욱 뚜렷해졌다.
MB 강도 40 이상부터는 모델이 실제 균열을 거의 탐지하지 못하는 수준으로 떨어지며, F1-score는 각각 10.08%, 4.45%에 불과하였다. 주목할 점은 선택성이 모든 MB 강도에서 99% 이상으로 유지된다는 점이다. 균열이 없는 정상 영역에 대해서는 높은 판별 능력을 유지하고 있음을 보여준다. 그러나 재현율이 급격히 낮아짐에 따라 정밀도와 F1-score 모두 크게 저하되었다. MTSS에서 발생하는 MB가 균열 검출 정확도에 치명적인 영향을 미친다는 점을 실증적으로 입증하며, 단순히 DL 모델 구조를 개선하는 것만으로는 성능 저하를 방지하기 어렵다는 점을 시사한다.
Table 1.
Crack detection performance of the ResNet-34-based Dynamic U-Net model according to motion blur intensity
4.2 NR-IQA 기반 이미지 품질 점수 산출
본 절에서는 MB 강도 증가에 의한 CNN 균열 검출의 성능 저하를 최소화하기 위한 방안으로 NR-IQA 기반의 이미지 필터링 효과를 분석하였다. MB가 포함된 이미지에 대한 품질 평가를 위해 NR-IQA 지표인 BRISQUE, NIQE, PIQE 및 CPBD를 활용하였다. BRISQUE, NIQE와 PIQE는 0 (선명) - 100 (흐림)의 범위를 갖고, CPBD는 0 (흐림) - 1.0 (선명)의 범위를 갖는다. 해당 지표들은 이미지의 흐림과 선명에 대한 범주가 정해져 있기 때문에, DL 성능과의 상관관계 분석을 통해 이미지 품질 점수의 임계값 범위를 설정하기 용이한 측면이 있다. Table 2는 구축한 MB 데이터셋에 대해 4개의 NR-IQA 지표로 측정한 이미지 품질의 평균 점수를 보여주고 있다.
Table 2.
Quality level classification based on NR-IQA scores (BRISQUE, NIQE, PIQE, CPBD)
Venkatanath et al. (2015)은 LIVE Image Quality Assessment Database Release 2 (Sheikh et al., 2006)에서 PIQE의 이미지 품질 수준과 점수를 Table 3과 같이 제시하였다. 원본 이미지에서 PIQE 점수는 13.77로 Excellent에 속하는 고품질이지만, MB 10에 대한 측정 점수는 69.35, MB 20은 79.96으로 Poor에 속하는 품질로 평가할 수 있다. MB 강도가 30에서 50일 때 PIQE 점수는 약 85점으로 Bad에 속하여, MB로 인해 이미지 품질 특성을 상실한 것으로 평가할 수 있다.
Table 3.
Quality scale and respective score range of PIQE
BRISQUE와 NIQE에 대한 품질 수준이 제시되고 있지 않지만, NIQE 원본 이미지에서 3.82에서 MB 50일 때 8.06으로 MB에 대해 큰 점수 변화는 없는 것으로 볼 수 있다. BRISQUE는 원본 이미지는 33.87에서 MB 이미지는 강도에 상관없이 약 43을 상회하는 것으로 나타났다.
CPBD는 원본 이미지가 0.87에서 MB 10은 0.12, MB 20은 0.104, MB 30은 0.05 그리고 MB 40 이후부터는 0으로 품질의 감소 경향이 뚜렷하게 나타났다. PIQE의 품질 평가와 유사하게 MB 30 이후부터는 MB로 인해 이미지 품질 특성을 상실한 것으로 평가할 수 있다.
4.3 NR-IQA 지표와 CNN 성능 간 상관관계 분석
NR-IQA 지표와 CNN 기반 균열 검출 모델의 성능 간의 상관관계를 정량적으로 분석하여, NR-IQA 지표가 이미지 품질뿐만 아니라 균열 탐지 성능의 신뢰 지표로의 활용 가능성을 분석하였다. BRISQUE, NIQE, PIQE, CPBD의 네 가지 전통적 NR-IQA 지표와 CNN 모델의 F1-score 지표가 사용되었으며, 각 MB 강도별로 측정된 평균 NR-IQA 점수와 F1-score 간의 상관관계를 분석하였다.
NR-IQA 지표가 CNN 기반 균열 검출 모델의 성능을 얼마나 잘 설명할 수 있는지를 분석하기 위해, NR-IQA 점수와 F1-score 간의 피어슨 상관계수(pearson correlation coefficient)를 Table 4와 같이 산출하였고, Fig. 4는 히트맵으로 나타낸 것이다.
Table 4.
Pearson correlation results (NR-IQA vs F1-score)
| NR-IQA metric | Pearson correlation coefficient | p-value |
| BRISQUE | -0.763 | 0.0774 |
| NIQE | -0.869 | 0.0245 |
| PIQE | -0.869 | 0.0247 |
| CPBD | 0.825 | 0.0434 |
Table 4와 Fig. 4에서 확인할 수 있듯이, CPBD는 F1-score와 양의 상관관계를 보였으며, 피어슨 계수는 +0.825로 가장 높은 수치를 기록하였다(p = 0.0434). 이는 CPBD가 이미지의 선명도를 정량적으로 측정하는 블러 특화 지표로, 모션 블러의 영향을 잘 반영함과 동시에 CNN 모델의 성능과 정비례하는 경향을 나타냄을 의미한다.
NIQE와 PIQE는 각각 -0.869의 피어슨 계수를 보이며 F1-score와 강한 음의 상관관계를 보였다(NIQE: p = 0.0245, PIQE: p = 0.0247). PIQE는 블록 단위로 품질 저하를 정량화하며 인지적 왜곡을 반영하므로, CNN 성능 저하의 주요 요인으로 작용하는 모션 블러에 민감하게 반응하는 것으로 해석된다.
BRISQUE는 피어슨 계수 -0.763으로 비교적 높은 음의 상관관계를 나타냈으나(p = 0.0774), 통계적으로 유의한 수준(p < 0.05)에는 도달하지 못하였다. 이는 BRISQUE의 점수 변동 폭이 작고, MB에 특화된 품질 평가 민감도가 낮기 때문으로 판단된다.
요약하면, CPBD는 CNN 성능과의 양의 상관관계를 기반으로 고품질 이미지와 검출 성능 간의 직접적 관계를 나타내는 반면, PIQE와 NIQE는 CNN의 성능 저하 요인을 설명하는 지표로서 유의미한 음의 상관관계를 보였다. 이러한 결과는 NR-IQA 지표가 단순한 시각 품질 측정 도구를 넘어, DL 기반 터널 균열 검출 성능을 예측하는 데에도 효과적으로 활용될 수 있음을 시사한다.
NR-IQA 지표와 CNN 성능 간의 비선형 및 순위 기반 관계성을 분석하기 위해 스피어만 상관계수(spearman correlation coefficient)를 Table 5와 같이 산출하였다. Fig. 5는 히트맵으로 나타낸 것이다. 스피어만 계수는 데이터의 순위 간 일관성을 바탕으로 하므로, 지표 간 관계가 반드시 선형일 필요 없이 비모수(non-parametric) 방식으로 유효성을 검토할 수 있는 장점이 있다.
CPBD는 스피어만 계수 +0.986 (p = 0.0003)로 가장 높은 정순위 상관관계를 나타내었으며, MB 강도가 증가함에 따라 F1-score가 감소하고 동시에 CPBD 점수도 일관되게 하락하는 선형적 관계가 유지된다. 실제로 CPBD는 모션 블러의 방향성과 강도를 정량화하는 엣지 기반의 지표로, 이미지 품질과 CNN 성능 간의 관계를 직관적으로 반영하였다고 볼 수 있다.
NIQE는 스피어만 계수 -1.000 (p < 0.0001)으로 F1-score와 일치하는 역순위 관계를 보였으며, PIQE 역시 -0.943 (p = 0.0048)로 유의한 음의 순위 상관관계를 나타냈다. 두 NR-IQA 지표가 MB 강도 변화에 따라 F1-score가 낮아지는 순서와 정확히 대응한다는 점에서, CNN 성능 저하 예측에 있어 우수한 순위 지표인 것으로 볼 수 있다. BRISQUE는 스피어만 계수 -0.771 (p = 0.0724)로 다소 낮은 상관관계를 나타내었으며, 이는 BRISQUE가 상대적으로 MB에 둔감하고 점수 변동폭이 제한적인 구조에서 기인한 것으로 판단된다.
결과적으로, CPBD는 선형적 관계와 순위 기반 관계 모두에서 가장 높은 설명력을 가지는 NR-IQA 지표로 확인되었다. PIQE와 NIQE 역시 강한 음의 상관관계를 기반으로 CNN 성능 예측에 신뢰성 있는 도구로 활용 가능함을 보여준다.
이러한 상관관계 분석 결과는 NR-IQA 지표가 터널 이미지의 품질 저하와 CNN 모델 성능의 관계를 효과적으로 설명할 수 있음을 시사한다. 그러나 상관관계 분석만으로는 각 NR-IQA 지표의 점수가 변화할 때 CNN 모델의 성능 지표(F1-score)가 얼마나 민감하게 반응하는지를 정량적으로 평가하기에는 한계가 있다. 특히, 본 연구에서 사용한 BRISQUE, NIQE, PIQE, CPBD와 같은 NR-IQA 지표들은 서로 다른 품질 척도를 갖고 있으며, 품질 수준(Excellent, Good, Fair 등)에 따른 실제적인 성능 변화의 정도를 후속연구에서 구체적으로 확인할 필요가 있다.
5. 결 론
본 연구는 고속으로 이동하는 MTSSs로 취득한 터널 이미지의 품질 저하, 특히 MB가 CNN 기반 균열 검출 모델의 성능을 저하시키는 문제를 해결하고자 무참조 이미지 품질 평가(NR-IQA) 기법의 적용 가능성을 검증하고, 이를 통한 성능 향상 방안을 제시하는 것을 목표로 하였다.
실제 MTSS 촬영 이미지를 기반으로 다양한 강도의 방향성 MB를 적용한 실험 데이터셋을 구축하였다. BRISQUE, NIQE, PIQE, CPBD 4종의 전통적 NR-IQA 지표를 사용하여 이미지 품질을 정량적으로 평가하였다. Dynamic U-Net 모델을 학습시켜 MB 강도에 따른 균열 검출 성능(F1-score) 변화와 NR-IQA 점수 간의 상관관계를 분석하였다.
주요 연구 결과는 다음과 같다.
첫째, MB가 CNN 기반 균열 검출 성능에 미치는 영향을 정량적으로 확인하였다. 원본 이미지에서 89.43%에 달했던 F1-score는 MB 강도가 증가함에 따라 급격히 감소하여, MB 강도 50에서는 4.45%까지 떨어졌다. MTSS 운용 환경에서 발생하는 이미지 품질 저하가 모델의 성능을 치명적으로 저해하는 핵심 요인임을 실험적으로 입증하였다.
둘째, NR-IQA 지표와 CNN 성능 간에 높은 통계적 상관관계가 있음을 규명하였다. 특히 블러에 특화된 지표인 CPBD는 F1-score와 0.825의 높은 양의 상관관계를 보였고, 인지적 왜곡을 잘 반영하는 PIQE와 NIQE는 각각 -0.869의 강한 음의 상관관계를 나타내었다. 이는 NR-IQA 지표가 단순한 시각적 품질 평가를 넘어, 유지관리 분야에서 DL 모델의 성능을 예측하는 신뢰성 있는 지표로 활용될 수 있음을 시사한다.
본 연구는 NR-IQA 기법을 터널 손상 탐지 프로세스에 체계적으로 접목하여, 데이터 품질 관리라는 새로운 관점의 성능 향상 전략을 제시하였다. 본 연구에서 제안한 NR-IQA 기반 필터링 방안을 현장에 적용한다면, 방대한 양의 MTSSs 데이터 중 학습 및 분석에 부적합한 저품질 이미지를 사전에 효과적으로 선별할 수 있다. 이를 통해 균열 검출 자동화 시스템의 오탐 및 미탐을 줄이고 전체적인 신뢰성과 안정성을 향상시키는 데 실질적으로 기여할 수 있을 것으로 기대한다.
본 연구는 인위적으로 생성된 방향성 MB에 대한 분석에 한정되었으며, 전통적인 NR-IQA 모델만을 다루었다는 제한점이 있다. 향후 연구에서는 실제 터널 환경에서 발생하는 조도 불균형, 노이즈 등 복합적인 왜곡 요소를 포함한 데이터에 대한 검증과 함께, 최신 딥러닝 기반 NR-IQA 모델과의 비교 분석을 통해 보다 강건한 품질 평가 체계를 구축할 필요가 있다. 또한, 특정 임계값에서 성능이 급변하는 비선형적 관계를 고려한 고도화된 필터링 전략을 개발하고, 실제 현장 적용을 통해 그 실효성을 검증하는 후속 연구가 이루어져야 할 것이다.













