VOL. 177 June 2021
현재 유튜브에만 일 평균 1억 개, 1분에 400시간 분량의 동영상이 업로드되고,
15초 길이의 짧은 동영상으로 인기를 몰고 있는 틱톡은 2020년 기준 9억 명이 넘는 사람들이 사용하고 있다.
이렇게 수많은 동영상 콘텐츠가 하루에도 수없이 생산된다. 그야말로 동영상의 시대가 열린 것이다.
동영상의 질을 평가하는 것 중 가장 중요한 요소가 바로 화질이다. 그렇다면 이 화질은 어떤 기준으로 평가할 수 있을까? 동영상 콘텐츠 자체가 소비자를 위해 만들어진 것이기 때문에 따라서 동영상의 화질을 평가하는 가장 정확한 방법은 시청자가 직접 동영상을 시청하고 평가하는 방법이다. 그러나 시청자가 동영상을 직접 시청하고 화질을 평가하는 방식은 시간적인 측면이나 비용적인 측면에서 불리하다. 수많은 사람이 시간을 들여 동영상을 직접 보고 평가하는 과정을 거쳐야 하기 때문이다. 그래서 그 대안으로 개발되고 있는 것이 객관적 동영상 화질 평가 기술이다.
전통적으로 동영상의 화질을 객관적으로 평가하는 방법은 평가할 동영상의 영상신호가 원본 동영상의 픽셀값과 얼마나 차이가 나는지를 측정하는 방식인데, 이 방법은 시청자가 실제로 인지하는 화질을 제대로 반영하지 못하는 부분이 많아 한계가 있다. 객관적 화질 평가 기술에 의해 같은 화질로 평가된 영상이라도 노이즈의 종류나 노이즈가 발생하는 위치 등에 따라 시청자가 인지하는 화질에 차이가 생기는 것이다. 그래서 실제 시청자가 직접 화질을 평가하는 인지 평가의 필요성이 더욱 커지고 있다.
인지 평가는 동영상 콘텐츠에 있어 불가피한 압축의 정도를 조절하기 위한 정보를 제공하기도 한다. 즉 얼마나 압축했을 때 시청자들이 어떻게 체감하는지 등을 파악하고 적정한 선을 찾을 수 있도록 하는 것이다. 또한 콘텐츠 화질을 개선하거나 노이즈를 감소시키고 화질을 복원하는 등애 중요한 지표가 된다. 더불어 콘텐츠 전송 시스템 설계 등에도 응용될 수 있다.
QoE(Quality of Experience)는 현재 화질 측정 분야에서 가장 주목받고 있는 개념이다. QoE는 시청자가 받아들이는 인지 화질을 측정하는 요소로써, 콘텐츠와 관련된 기술적 요소와 더불어 시청자와 관련된 요소들, 시청하는 상황 등을 복합적으로 고려하는 개념이다. 기존에는 QoS(Quality of Service) 등의 용어가 화질을 표현하는데 사용되었는데, 이는 대부분 시청자보다는 시스템의 관점에서 정의되는 개념이다. 그러나 최근에는 QoS보다는 QoE를, 즉 인지 화질 개념을 사용하는 방향으로 변화하고 있다.
영상의 인지 화질 평가 방법은 크게 주관적 평가와 객관적 화질 평가로 구분된다. 주관적 화질 평가는 QoE를 반영하는 가장 핵심적인 평가 방법으로, 정확도와 신뢰도가 높은 방법이다. 주관적 화질 평가는 실제 시청자를 대상으로 실험을 진행하여 시청자가 느끼고 받아들이는 화질을 측정한다. 그렇기 때문에 화질 평가의 궁극적 목표인 사용자의 만족도를 정확하게 측정할 수 있다.
그러나 실험자와 실험 영상, 환경의 설정 등에 따라 평가의 신뢰도가 달라질 수 있어 실험의 설계 및 실행 환경이 철저하게 통제되어 있어야 한다. 또한 여러 명의 시청자를 대상으로 하는 실험으로 진행되기 때문에 시간과 비용이 많이 소요된다. 특히 시간이 오래 걸리기 때문에 멀티미디어 시스템의 설계 단계에서는 사용이 가능하지만 실시간 시스템에서 적용하기에는 어렵다는 한계가 있다. 그럼에도 불구하고 주관적 화질 평가는 객관적 화질 평가 방법을 개발하고 이를 검증하는 데에 핵심적인 정보를 제공하기 때문에 그 중요성은 여전히 크다.
객관적 화질 평가는 주관적 화질 평가 결과를 예측하는 기법으로, 주관적 화질 평가 결과를 기반으로 만들어진다. 목표 자체가 주관적 화질 평가 메커니즘을 모델링하고 점수를 예측하는 것이기 때문에, 주관적 화질 평가보다는 정확도가 부족하다. 그러나 주관적 화질 평가에 비해 적은 비용과 시간으로 측정할 수 있고, 실제 시스템에 실시간을 적용하는 것이 가능하다는 장점이 있다. 이런 점을 고려했을 때 인지 기반 화질 평가 방법의 방향성은 예측 정확도가 높은 객관적 화질 평가 기법을 개발하는데 있다고 볼 수 있다.
전통적으로 사용되어 온 객관적 화질 평가 방법은 단순히 신호를 기반으로 원본 동영상과 평가 동영상 사이의 화소값 차이를 기반으로 계산하여 평가하는 방법이다. 현재도 많은 시스템에서 이 기법을 사용하고 있지만, 사람이 인지하는 화질을 반영하지 못하는 측면이 많기 때문에 다른 객관적 화질 평가 기법들이 계속해서 연구, 개발되고 있다.
인터넷을 통해 방송이나 영화 등을 제공하는 OTT(Over-the-top media service) 업계의 공룡 기업 NETFLIX는 VMAF(Video Multimethod Assessment Fusion)이라는 객관적 화질 평가 기준을 가지고 있다. 이는 일반 신경망 기반으로 개발된 기술로, 다수의 화질 척도 측정 결과를 종합하여 측정하는 기술이다. NETFLIX의 VMAF 기술은 약 75% 정도의 신뢰도를 보이고 있다.
이번 ETRI가 개발한 동영상 화질 자동 측정 기술은 기계가 지정한 동영상 특성과 사람이 지정한 동영상 특성을 동시에 고려하는 기술이다. 이 기술은 컴퓨터가 지속적으로 데이터를 학습하고 이를 기반으로 필요한 작업을 예측하고 수행할 수 있도록 하는 기계학습을 기반으로 개발되었으며, 약 92%의 높은 신뢰도를 보여준다.
ETRI의 동영상 화질 자동 측정 기술이 상용화되면 다양한 분야에서 큰 역할을 할 수 있을 것으로 기대된다. 동영상 화질 측정에 드는 비용과 시간을 줄여 방송 서비스나 OTT 서비스 콘텐츠의 품질을 높여줄 수 있을 것이며, 서비스 품질을 지속해서 모니터링하여 안정성을 높일 수도 있을 것이다. 또한 동영상 콘텐츠 화질을 결정하는 요소의 정보들도 더 많이, 더 빠르게 확보하여 관련 산업의 완성도를 높일 것이다.
본 내용은 ETRI 기술사업화플랫폼에 등재된
‘비디오 인지화질 자동측정 기술’을 인용해 구성하였습니다.
저자 : 미디어부호화연구실 정세윤 연구원