알리바바, 시작과 끝 프레임으로 만드는 AI 영상 모델 공개

Wan2.1-FLF2V-14B, 텍스트와 이미지 입력으로 고품질 이미지 및 영상 생성

알리바바 클라우드가 시작 프레임과 종료 프레임을 기반으로 영상의 흐름을 정교하게 생성할 수 있는 AI 영상 생성 모델 ‘Wan2.1-FLF2V-14B’를 오픈소스로 공개했다. 해당 모델은 숏폼 콘텐츠 제작자와 개발자들이 직관적이고 정밀한 영상 콘텐츠를 효율적으로 제작하도록 돕는 데 초점을 맞췄다.

‘Wan2.1-FLF2V-14B’는 알리바바 클라우드의 파운데이션 모델 시리즈 ‘Wan2.1’의 일부로, 텍스트와 이미지 입력을 통해 고품질의 이미지 및 영상을 생성하는 데 최적화해 있다. 특히 이번 모델은 영상의 시작과 끝 장면을 입력값으로 받아, 두 장면 사이의 시각적 일관성을 유지하면서 자연스러운 전환을 생성하는 ‘제어 조정 메커니즘(Control Adjustment Mechanism)’을 핵심 기술로 채택했다.

이 메커니즘은 사용자가 제공한 프레임에 담긴 의미 정보를 분석해, 중간 프레임의 스타일과 구조를 정밀하게 조정한다. 그 결과 복잡한 동작도 부드럽게 이어지며, 사실적이고 몰입감 있는 영상 결과물을 생성할 수 있다.

현재 해당 모델은 허깅페이스(Hugging Face), 깃허브(GitHub), 모델스코프(ModelScope)를 통해 누구나 자유롭게 내려받아 사용할 수 있다. Wan 시리즈 공식 사이트에서는 720p 해상도의 5초 분량 영상도 무료로 생성 가능해, 실험과 프로토타입 제작에 유용하다.

‘Wan2.1’ 시리즈는 중국어와 영어 기반 텍스트를 모두 지원하는 영상 생성 AI 모델로, 픽셀 정밀도, 명령 수행력, 움직임 구현 등에서 높은 평가를 받아왔다. 최근에는 영상 생성 성능을 평가하는 글로벌 벤치마크 플랫폼인 ‘VBench 리더보드’에서 종합 1위를 차지하며 기술력을 입증했다.

이번 신모델 출시는 알리바바 클라우드가 AI 오픈소스 생태계 확장을 위해 지속적으로 투자하고 있다는 점에서도 주목된다. 알리바바는 앞서 2023년 8월 오픈형 대규모 언어모델 ‘Qwen-7B’를 공개했으며, 현재까지 허깅페이스를 통해 200개 이상의 생성형 AI 모델을 공개했다. 이를 기반으로 개발된 파생 모델은 10만 건을 넘어서며, 세계 최대 규모의 오픈 AI 모델 생태계를 구성하고 있다.

알리바바 측은 “Wan2.1-FLF2V-14B는 시작과 종료 프레임 기반이라는 새로운 접근으로 영상 생성의 정밀도와 직관성을 크게 향상시켰다”며, “창작자와 개발자들이 보다 자유롭게 영상 AI를 실험하고 발전시킬 수 있는 기반을 제공할 것”이라고 밝혔다.

헬로티 서재창 기자 |