알리바바, 디지털 휴먼 영상 생성 모델 ‘Wan2.2-S2V’ 공개

알리바바가 디지털 휴먼 영상 제작을 위한 오픈소스 모델 ‘Wan2.2-S2V(Speech-to-Video)’를 공개했다. 이 모델은 인물 사진과 음성 파일만으로 실제 같은 아바타 영상을 구현해, 대화·노래·연기까지 가능한 디지털 캐릭터 제작을 지원한다.

‘Wan2.2-S2V’는 알리바바의 영상 생성 시리즈 ‘Wan2.2’에 포함된 모델로, 단일 이미지 기반으로 고품질 애니메이션을 제작할 수 있다. 얼굴 클로즈업뿐 아니라 상반신, 전신 구도의 영상까지 구현할 수 있으며 프롬프트 지시에 따라 동작과 배경을 자동으로 생성해 제작자가 의도한 스토리와 디자인을 정밀하게 반영한다.

이번 모델은 음성 기반 애니메이션 기술을 강화해 자연스러운 대화와 음악 공연까지 표현 가능하며 한 장면에서 여러 캐릭터를 동시에 처리할 수 있다. 음성 녹음을 사실적인 동작으로 변환할 수 있어 현실감 있는 캐릭터 연출이 가능하며 만화풍·동물·스타일화된 캐릭터까지 폭넓게 지원한다. 해상도는 480P와 720P를 지원해 전문 제작 환경에서도 활용할 수 있으며 소셜미디어 콘텐츠부터 프레젠테이션 영상까지 다양한 용도로 적용 가능하다.

기술적 혁신도 두드러진다. ‘Wan2.2-S2V’는 텍스트 기반 전체 동작과 음성 기반 세부 움직임을 결합해 기존 토킹 헤드 애니메이션을 넘어선다. 이를 통해 복잡한 상황에서도 자연스럽고 풍부한 캐릭터 동작을 구현한다. 또 혁신적인 프레임 처리 기술을 적용해 임의 길이의 이전 프레임을 하나의 잠재 표현(latent representation)으로 압축, 연산 부담을 줄이면서 안정적인 장편 영상 제작을 가능케 했다.

알리바바 연구팀은 영화·방송 제작 환경을 고려한 대규모 음성·영상 데이터셋을 구축하고 다중 해상도 학습 기법을 적용해 모델 성능을 강화했다. 이를 통해 세로형 숏폼부터 가로형 영화·TV 영상까지 다양한 포맷을 유연하게 지원한다.

‘Wan2.2-S2V’는 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드 오픈소스 커뮤니티 ‘모델스코프(ModelScope)’에서 다운로드할 수 있다. 알리바바는 올해 2월 ‘Wan2.1’, 7월 ‘Wan2.2’ 모델을 공개한 바 있으며 ‘Wan’ 시리즈는 허깅페이스와 모델스코프에서 누적 690만 회 이상 다운로드됐다.

헬로티 구서경 기자 |