ChatGPT 개발사인 오픈AI가 텍스트를 동영상으로 만들어주는 인공지능 기술 ‘SORA’를 선보였다.
현재 제한된 인원만 사용할 수 있는 기술이지만, 이미지를 만들어주는 인공지능의 기술이 한 단계 업그레이드된 셈이다.
생성형 인공지능은 딥러닝을 포함한 인공지능 기술을 이용해 새로운 콘텐츠를 제작하는 인공지능 기술 분야 중 하나다. 언어, 비전을 포함한 컴퓨터로 처리할 수 있는 다양한 분야의 콘텐츠(텍스트, 이미지, 비디오, 오디오, 컴퓨터 코드, 합성 데이터, 워크플로 및 물리적인 객체 모델 등)를 생성하는 것을 말한다.
생성형 인공지능의 괄목할 만한 성장은 트랜스포머(Transformer)의 등장으로 시작되었다고 해도 과언이 아니다. 트랜스포머는 2017년 구글에서 선보인 생성 모델이다. 문장이나 단락 등 하나의 글에서 단어 간의 의미, 위치, 관계를 분석한다. 이를 바탕으로 맥락과 의미를 학습하는 인코더-디코더 구조의 신경망이라고 보면 된다. 어텐션(Attention) 혹은 셀프 어텐션(Self-attention) 기법을 활용한다. 이 트랜스포머 모델이 ChatGPT에 사용되는 중추 모델이다.
2020년 10월, 시각 도메인에서도 비전 트랜스포머가 발표됐다. 언어 중심에서 이미지, 비디오 등의 분야로 활용 범위가 넓어진 것이다. 또한 텍스트 기반의 사전학습 방식에서 벗어난 텍스트, 이미지쌍을 적용한 멀티모달 사전학습 모델(Vision-Language Pre-Trained Models)이 다수 발표되었다. 멀티모달 사전학습 모델에서 언어는 기존 임베딩 방식으로 표현되고, 이미지는 패치 단위로 나누어 임베딩 하는 방식을 사용한다. 더불어 대조 학습(Contrastive Learning) 기반의 이미지와 텍스트 간의 상호 연관성을 사전에 학습해 놓은 모델이 주로 연구되고 있다.
생성형 인공지능은 현재 이미지뿐만 아니라 비디오, 3D모델, 오디오에도 활용되고 있다. DALL-E 3, Midjourney, Imagen, Parti, CLIP 등이 있으며 텍스트를 입력하면 이미지를 생성한다. Adobe Firefly의 생성형 인공지능 도구 Generative Fill을 이용해서도 사진을 수정할 수 있다. 수정이 필요한 영역을 선택해 텍스트로 입력하면 이미지를 생성해 채워주는 것이다.
언어 분야에서는 트랜스포머 구조를 기반으로 한 ChatGPT, Gemini, LLaMA와 같은 대규모 언어 모델에 관한 연구가 계속해서 진행되고 있다. 음악 생성 분야에서도 구글은 MusicLM, MusicVAE를 개발했다. 이외에도 Musegan, FlowComposer, DeepBach, DeepJazz등 다양한 솔루션이 개발됐다.
영상 분야도 심상치 않은 움직임이 계속되고 있다. 런웨이의 Gen-2, 스태빌리티AI의 Stable Video Diffusion, 구글의 Lumiere, 오픈AI의 SORA는 텍스트와 이미지를 영상으로 생성할 수 있는 기술이다. 메타도 이미지 편집과 비디오 생성이 가능한 인공지능 Emu를 선보였다.
다방면으로 개발되고 있는 생성형 AI 시장에 ETRI도 함께하고 있다. ETRI는 오픈AI의 DALL-E 3보다 이미지 생성 속도가 5배 빠른 ‘코알라(KOALA)’ 3종 모델과 이미지와 영상을 보며 질의응답이 가능한 대화형 시각 언어모델인 ‘코라바(Ko-LLaVa)’ 2종을 선보였다. 앞으로 게임, 영화, 음악뿐 아니라 디자인, 교육 콘텐츠 등 다양한 분야에서 사용될 생성형 AI의 영향력을 기대해 본다.