구글, 최첨단 비디오 및 이미지 생성 모델 공개

구글(Google)이 비디오 및 이미지 생성 모델의 새로운 버전을 발표했다.

구글 딥마인드(Google DeepMind)의 연구 과학자 에론 반 덴 오르드는 구글 공식 블로그를 통해 올해 초 비디오 생성 모델인 Veo와 최신 이미지 생성 모델인 Imagen 3를 선보였는데, 이제 새로운 비디오 모델인 Veo 2와 최신 버전의 Imagen 3를 소개하고 VideoFX, ImageFX 및 최신 구글 실험실 기능에서 사용할 수 있다고 밝혔다.

Veo 2는 광범위한 주제와 스타일로 고품질 비디오를 제작하며, 사람이 평가하는 직접 비교에서 선두 모델에 비해 최첨단 결과를 달성했다고 한다. Veo 2는 영화 촬영의 고유한 언어를 이해하므로, 장르를 요청하고, 렌즈를 지정하고, 영화적 효과를 제안하면 최대 4K 해상도로 분 단위로 확장한 결과물을 제공한다. 장면 중앙을 미끄러지듯 움직이는 로우 앨글 트래킹 샷이나 현미경을 들여다보는 과학자의 얼굴을 클로즈업 샷으로 요청하면 Veo 2가 이를 만들어준다. 프롬프트에 '18mm 렌즈'를 제안하면 비디오 화각을 광각으로 만들거나 '얕은 피사계 심도'를 입력하면 배경을 흐리게 처리하고 피사체에 초점을 맞춘다.

기존 비디오 모델은 손가락 갯수가 늘어나거나 예상치 못한 물체가 나오는 등 세부 사항에 문제가 발생할 수 있는데 Veo 2는 이러한 세부 사항을 덜 자주 생성하여 출력을 더욱 사실적으로 만든다고 한다.

다른 이미지 및 비디오 생성 모델과 마찬가지로 Veo 2 출력물에는 AI에서 생성된 것으로 식별하는데 도움이 되는 보이지 않는 SynthID 워터마크가 포함되어 잘못된 정보 및 잘못된 속성 지정 가능성을 줄이는데 도움이 된다.

구글은 새로운 Veo 2 기능을 Google Labs 비디오 생성 도구인 VideoFX에 도입하고 여기에 액세스할 수 있는 사용자 수를 확대할 거라고 밝혔다. 또한 내년에는 Veo 2를 유튜브 쇼츠(Youtube Shorts) 및 기타 제품으로 확장할 계획이라고 덧붙였다.

또한 Imagen 3 이미지 생성 모델도 개선하여 이제 더 밝고 잘 구성된 이미지를 생성하며, 포토리얼리즘에서 인상주의, 추상에서 애니메이션에 이르기까지 다양한 아트 스타일을 더 정확하게 렌더링할 수 있다고 한다. 최신 Imagen 3 모델은 Google Labs 이미지 생성 도구인 ImageFX를 통해 전세계 100개국 이상에 출시된다.

그 밖에 Google Labs의 최신 실험 기능인 Whisk를 사용하여 마음에 둔 주제, 장면 및 스타일을 전달하는 이미지를 입력하거나 만들 수 있는 기능도 선보였다. Whisk는 최신 Imagen 3 모델을 Gemini의 시각적 이해 및 설명 기능과 결합하여 Gemini 모델이 자동으로 이미지의 자세한 캡션을 작성한 다음 해당 설명을 Imagen 3에 입력한다. 이 과정을 통해 재미있고 새로운 방식으로 피사체, 장면 및 스타일을 쉽게 리믹스할 수 있다.