[기고] AI가 영화를 제작할 수 있을까?

하민회 (이미지21대표, 미래기술문화연구원장)

AI 동영상의 본격적인 진화가 시작됐다. 지난 2월 오픈AI가 발표한 동영상 생성 AI모델 '소라(Sora)'는 전 세계인을 충격에 빠뜨렸다.

네온이 가득한 도쿄 밤거리를 걷는 여인부터 SF영화의 한 장면 같은 우주선 씬, 깜찍하고 개성 있는 애니메이션까지 AI가 만든 영상이라 보기엔 믿기지 않을 만큼 현실적이고 훌륭한 품질 탓이었다. 영화계와 광고업계는 기대 반 우려 반으로 술렁였다.

그 소라가 12월 9일 업그레이드 버전 '소라 터보'로 공식 출시되었다. 사용자는 최대 1080p 해상도, 최대 20초 길이의 동영상을 와이드스크린, 수직 또는 정사각형 비율로 이전 소라 대비 훨씬 빠른 속도로 생성할 수 있다.

텍스트뿐 아니라 사진, 동영상을 입력해 새로운 동영상으로 만드는 것도 가능하다. 기본적인 인터페이스는 '미드저니'의 웹버전과 비슷한데 생성한 동영상을 클릭하면 프롬프트를 확인할 수 있다. 타임라인 위에 장면별로 프롬프트를 입력해 영상을 순서대로 만들 수 있는 '스토리보드' 기능도 눈에 띈다.

영국, 스위스 및 유럽연합(EU) 지역을 제외한 챗GPT가 제공되는 모든 국가에서 독립된 서비스로 출시되는 소라 터보는 챗GPT '플러스'와 '프로' 구독자는 별도 비용 없이 사용할 수 있다.

소라에 대한 기대와 관심은 한때 플랫폼 내 이용자 폭증으로 인한 서버 트래픽 문제가 발생된 것만 봐도 알 수 있다. 10개월 간 얼마나 발전했는지, 이제는 AI로 누구나 영화를 만들 수 있을지 모두가 궁금해했다.

"소라는 통제력을 가지고 있다는 착각을 불러 일으킨다. 누군가 4K 카메라를 가지고 있다고 해서 스티븐 스필버그가 되는 것은 아니다" 최초로 소라를 활용해 단편 영화를 제작한 미카엘라 테르나스키 홀랜드 감독은 제어(표현 조절)이 자유롭지 않은 소라의 한계를 이렇게 지적했다.

특히 영상에 등장하는 개체의 모습을 유지하거나 물리법칙에 맞게 움직이는 데에는 한계를 보인다. 손에 들고 있던 물건이 다음 장면에서 사라진다 거나 수프를 먹고 있던 스푼이 잔을 뚫고 나오기도 하고 걷고 있는 동물의 앞다리와 뒷다리가 뒤바뀌기는 모습도 보인다. 이전 버전보다 드라마틱한 발전이 느껴지지는 않는다.

그럼에도 불구하고 소라 터보의 출시는 동영상 AI 모델을 둘러싼 빅테크 간 불꽃 튀는 경쟁을 예고한다.

비슷한 시기에 구글 딥 마인드가 공개한 동영상 생성AI 모델 비오(VEO)2. 영상 생성의 신세계를 열었다는 호평을 받는다. 일단 4K 해상도로 2분 이상의 영상을 생성할 수 있다. 소라보다 해상도는 4배, 영상 길이는 6배를 뛰어넘는다.

카메라 제어능력도 뛰어나다. 다양한 각도에서 객체와 사람을 인식해 움직임, 유체 동역학, 빛의 특성까지 사실적으로 구현해낸다. 몇 분간 일관된 동영상 생성을 유지하기도 한다. 물론 현재 비오 2가 '비디오FX'를 통해 일부 사용자에게만 제공되고 있는 관계로 아직은 성능에 대해 정확한 평가를 내리기 어렵다는 의견도 있다.

페이스북 모회사인 메타가 만든 '무비 젠'도 눈 여겨 볼만하다. 최대 16초 길이의 영상을 만들 수 있는 무비 젠은 영상과 텍스트 프롬프트로 주변 소리, 악기 배경 음악, 음향 효과 등을 포함한 최대 45초 길이의 오디오를 생성해내고 이를 영상 콘텐츠와 동기화 할 수 있다. 사진을 사용해 실제 인물이 등장하는 맞춤형 동영상도 만들 수 있다. 무비 젠은 내년에 인스타그램을 비롯해 왓츠앱, 메신저 등 메타의 소셜미디어 앱에 탑재될 계획이다.

빅테크들의 경쟁이 동영상 생성AI 서비스로 넘어 간 결정적 이유는 시장성 때문이다. 영화, 애니메이션, 광고, 숏 폼은 물론 최근 관심이 높아지고 있는 증강현실(AR)과 가상현실(VR)에서도 생성AI 활용성이 커지고 있기 때문이다. 포천 비즈니스 인사이트에 의하면 AI 동영상 생성 시장 규모는 지난해 5억 3440만 달러(약 7000억원)에서 2032년 25억 6290만 달러(3조 3000억원)로 연평균 19.5%씩 성장할 것으로 기대된다.

과연 AI는 영화를 만들어낼 수 있을까?

현재 기술로는 아니 앞으로도 한 동안은 복잡한 시나리오로 구성된 10분이 넘는 영상을 무리 없이 생성하는 것은 불가능해 보인다. AI로 대본 초안을 작성하면 어느 정도 시간을 단축할 수 있고 시각효과(VFX), 편집 등의 여러 단계에서도 자동화를 통해 비용을 줄일 수 있다.

하지만 AI의 결과물은 어디까지나 '평균적인 수준'에 불과하다. 그 이상이 되려면 반드시 베테랑 아티스트의 손길이 필요하다. 대본이든 기술적인 작업이든 마찬가지다. AI가 이미 제작된 영화의 예고편은 만들 수 있어도 깊은 감정선을 건드리는 한 장면은 만들기 어렵다.

AI는 그저 시간과 비용은 줄여 주는 수단일 뿐 여전히 창의적이거나 혁신적인 포인트를 만들어내지 못한다.

"예술은 언제 멈춰야 하는 것을 아는 것이 매우 중요하다. 하지만 동영상 생성 AI는 일관성이 부족하고 자유로운 컨트롤이 어려우며 출력의 품질이 아직 실사에 미치지 못한다. 그런 AI가 멈추는 것을 배우기는 매우 어려울 것이다."

배우 벤 애플릭의 말은 '비범'을 만드는 건 결국 인간임을 새삼 깨닫게 해준다.

◇하민회 이미지21대표(미래기술문화연구원장) =△경영 컨설턴트, AI전략전문가△ ㈜이미지21대표 △경영학 박사 (HRD)△서울과학종합대학원 인공지능전략 석사△핀란드 ALTO 대학 MBA △상명대예술경영대학원 비주얼 저널리즘 석사 △한국외대 및 교육대학원 졸업 △경제지 및 전문지 칼럼니스트 △SERI CEO 이미지리더십 패널 △KBS, TBS, OBS, CBS 등 방송 패널 △YouTube <책사이> 진행 중 △저서: 쏘셜력 날개를 달다 (2016), 위미니지먼트로 경쟁하라(2008), 이미지리더십(2005), 포토에세이 바라나시 (2007) 등