ETRI

VOL. 174 april 2021

TOP
ICT Trend

인공지능으로 그리는 그림

우리 삶 속에서 이미지와 비디오를 활용한 콘텐츠의 비중은 점점 커지고 있다.
실제 우리 삶에서 가장 많이 이용하는 스마트폰, 태블릿 pc 등을 통해 소비하는
예능, 영화, 드라마, UCC 콘텐츠들은 텍스트보다 시각적인 요소가 더 중요하게 여겨진다.
이미지와 비디오가 주가 되고, 텍스트가 부가 요소인 시대에 기술은 어떤 방향으로 발전하고 있을지 알아보자.

ICT Trend 관련이미지1

읽고 쓰는 콘텐츠에서 보고 듣는 콘텐츠로contents

리서치 기관 오픈서베이가 발표한 ‘콘텐츠 트렌트 리포트 2019’에 따르면, 한국인이 소비하는 콘텐츠 중 가장 높은 비율을 차지한 것은 전체 이용자의 91.5%가 소비하고 있는 비디오 콘텐츠로 나타났다. 특히 연령층이 낮을수록 개인 방송과 게임, 애니메이션, 웹툰 등의 콘텐츠를 더 자주, 더 오래 이용하는 것으로 나타났다. 시간이 지날수록 이미지, 비디오 콘텐츠의 비중이 더욱 높아질 것이라는 이야기다.

더불어 콘텐츠를 생산하는 주체도 방송국이나 기업 등의 집단에서 개인이나 소수 그룹으로 옮겨가고 있다. 이런 흐름에 발맞춰 인공지능을 활용해 원하는 이미지나 비디오를 생성하고 활용하는 기술이 연구되고 있다. 최근에는 이미지 편집을 많이 활용하는 디자인 분야를 겨냥해 이미지를 손쉽게 편집하거나 그릴 수 있는 프로그램이 실제 서비스되고 있기도 하다.

GAN(Generative Adversarial Networks, 적대적 생성 신경망) 기술은 기존 딥러닝(Deep learning) 기술에서 활용한 인공 신경망과는 다른 학습 방법을 활용해 사람이 보기에 진짜와 구분하기 힘들 정도로 정교하고 사실적인 가상의 이미지를 만들어내는 기술이다. 기존 딥러닝 기술은 하나의 인공 신경망을 활용하여 데이터를 학습하는 방법을 활용했지만, GAN은 2개의 인공 신경망 사이의 상호작용을 활용해 높은 수준의 가상 이미지를 만들어낸다.

ICT Trend 관련이미지2

GAN 기술은 생성 신경망과 판별 신경망으로 구성되어 있다. 생성 신경망은 이미지를 생성하는 인공 신경망이고, 판별 신경망은 입력된 이미지의 진위 여부를 구별할 수 있도록 만들어진 신경망이다. 이때 생성 신경망은 만들어낸 이미지를 판별 신경망이 진짜 이미지로 판별하도록 학습하고, 판별 신경망은 생성 신경망이 만든 이미지를 가짜 이미지로, 실제 이미지를 진짜 이미지로 판별하도록 학습한다. 이렇게 두 개의 신경망은 서로 적대적인 관계에 있으며, 이런 학습 방법을 이른바 ‘적대적 기계학습’이라고 한다.

생성 신경망은 데이터를 입력받아 다수의 층(Layer)을 통과하면서 결과물을 확장해 나가는 구조로 되어 있다. 마지막 층을 통과하여 생성되는 이미지의 크기가 원하는 크기가 되도록 만드는 것이다. 반대로 판별 신경망은 이미지의 크기를 줄여나가는 전통적인 구조의 인공 신경망으로 구성되어 있다. 생성 신경망이 만들어낸 이미지를 판별 신경망이 구별하는 과정을 반복하면 결과적으로 진짜 이미지와 구별하기 힘든 수준의 가짜 이미지가 생성된다.

초기 GAN 기술은 단순한 정보에서 다양한 이미지를 생성하는 기술이 대부분이었다. 이러한 초기 GAN 모델들은 2가지 문제점이 있었다. 첫 번째는 생성되는 이미지의 해상도가 128x128에 불과했다는 것이고, 두 번째는 생성되는 이미지가 완성되기 전까지 어떤 형태일지 예측할 수 없다는 점이었다. 이로 인해 초기 GAN 기술은 실제 일상 생활에서 활용되지는 못했다.

ICT Trend 관련이미지5

인공지능과 이미지 생성, 어디까지 왔을까progressive growing

최근에는 GAN 기술의 한계점을 해결하기 위한 연구가 활발히 진행되고 있다. GAN 기술 연구 동향은 크게 이미지 생성 기술과 이미지 변환 기술로 나누어져 있다. 첫 번째로 이미지 생성 기술에서는 기존보다 더 고해상도의 이미지를 생성하는 연구가 활발히 진행되고 있다. 이미지 생성 기술 중 하나인 ProGAN(profressive growing of GANS)은 초저해상도(4x4)에서부터 차근차근 이미지를 개선하는 방법을 학습하여 고해상도(1024x1024) 이미지를 생성하는 방법을 제시했다. 이는 과거 128x128 해상도의 얼굴 이미지를 생성하는 것에 비해 비약적인 성장임을 알 수 있다.

또 SinGAN(Learning a Generative Model from a Single Natural Image)은 이미지 생성에 그치지 않고 변형, 조작, 동영상 생성 등에 ProGAN과 유사한 방식을 활용했다. 이미지 한 장을 생성하는 것에 그치지 않고 더 다양한 형태의 이미지를 제작하고 활용할 수 있는 길을 제시한 셈이다.

1) 데이터셋(Dataset)
컴퓨터가 처리하거나 분석할 수 있는 형태로 존재하는 관련 정보의 집합체를 말한다.

ICT Trend 관련이미지4

SRGAN 실험결과 ⓒ https://github.com/tensorlayer/srgan

이미지 변환 기술에서는 생성된 이미지에 조건을 주고 원하는 방향으로 변환시키고자 하는 연구들이 활발하게 이루어지고 있다. 먼저 Pix2PixHD는 대표적인 이미지 변환 연구로, 쉽게 말해 이미지의 대략적인 윤곽선이나 분류 정보만을 가지고 실제 같은 결과물을 만들어내는 기술이다. Pix2PixHD는 edge 정보와 segmentation map을 이용하는데, edge 정보란 이미지에서 색 정보를 제거하고 남은 윤곽선을, segmentation map은 각각의 이미지가 어떤 이미지인지 분류하는 분류 정보를 의미한다.

SRGAN(Super resolution)은 저해상도 이미지를 고해상도 이미지로 복구하는 기술이다. 과거에는 고운 질감을 복원하는데 어려움이 있었지만 최근에는 SRGAN은 GAN 알고리즘을 이용해 PSNR(Peak Signal-to-noise ratio, 화질 손실 정보를 평가하는 기준)이 낮아도 사람이 보기에 이상하지 않도록 이미지 정보를 복원해낸다.

ICT Trend 관련이미지3

인공지능, 모방 속에서 창작을 발견하다AI Art

아직까지 GAN 기술은 기존 딥러닝 이미지 처리 방식과 다르게 성능을 객관적인 수치로 표시하는 방법이 부족하고, 4K와 같은 고화질 영상을 만들기 위해서는 고성능의 메모리가 필요하여 기술 발전 속도가 느리다는 문제가 있다. 따라서 앞으로 성능개선 및 평가 방법 개발 등 아직은 해결해야 할 점이 많다.

그러나 오늘날, 사용자의 의도를 파악하고 고해상도의 이미지를 생성하는 GAN 기술은 보는 사람을 놀랍게 한다. 따라서 기술이 더욱 고도화되면 지금보다 더 높은 해상도의 이미지를 GAN을 통해 만들어내고 이를 실제 이미지와 구분하는 새로운 구조와 기술이 등장할 것으로 기대된다.

모방의 영역에 머물러 있던 인공지능 기술은 이제 창작의 영역을 넘보고 있다. ETRI 역시 이런 시대적 흐름에 발맞춰 준비하고 있다. GAN 기술을 바탕으로 창작지능을 가진 인공지능 개발에 박차를 가하고 있는 것이다. 앞으로 이미지 생성 및 변환 기술을 이끌어 나갈 ETRI의 활약을 기대해본다.

ICT Trend 관련이미지6

본 내용은 전자통신동향분석 35권 4호를 참고, 재구성한 글입니다.

관련 논문 바로보기
  • 페이스북 공유하기
  • 네이버 공유하기
  • 카카오톡 공유하기