제2의 딥시크?...틱톡, 세계 최초 시각 인식 AI 공개

2025-02-11

[베이징=뉴스핌] 조용성 특파원 = 틱톡의 모기업인 바이트댄스(중국명 쯔제탸오둥, 字節跳動)는 언어 지시가 아닌 시각을 이해해 동영상을 제작하는 '비디오월드'라는 이름의 AI 솔루션을 공개했다.

바이트댄스 산하 더우바오(豆包) AI 대형 모델 팀은 베이징교통대학, 중국과학기술대학과 공동으로 제작한 비디오월드를 발표했다고 중국 제일재경신문이 11일 전했다.

오픈AI가 공개한 AI 동영상 생성 모델인 소라(Sora)는 텍스트를 입력하면 관련된 동영상을 제작한다. 이에 반해 비디오월드는 텍스트나 음성이 아닌 시각 정보만으로 동영상을 제작한다. 시각 정보로 동영상을 제작하는 AI 솔루션인 비디오월드가 처음이라고 매체는 평가했다.

종이 접기 혹은 넥타이 매기 등의 복잡하거나 세밀한 동작은 언어로 명확히 표현하기 어렵다. 비디오월드는 AI가 인간 혹은 사물의 동작을 시각으로 인식해서 동영상을 제작하는 프로그램이다.

바이트댄스는 "비디오월드는 학술 연구 프로젝트로 현재 새로운 기술 방법을 탐색하는 과정에 있을 뿐이고, 제품화되기까지는 시간이 필요하다"고 설명했다. 바이트댄스는 "비디오월드는 바둑 및 로봇 제어 환경 시뮬레이션에서 우수한 성능을 보였지만, 실제 세계 환경에서는 아직 미비점이 많다"고 소개했다.

비디오월드는 바둑 게임에서 프로 5단 수준의 실력을 달성했으며, 다양한 환경에서 로봇 작업을 수행했다는 것이 회사의 설명이다. 또한 바이트댄스는 "수많은 문제를 해결해 비디오월드를 현실 세계의 범용 지식 학습기로 발전시키는 것을 목표로 하고 있다"고 설명했다.

더우바오는 바이트댄스가 2023년 8월 발표한 AI 챗봇이다. 현재 중국 내에서 딥시크에 이어 사용자 수 2위에 올라 있는 AI 대형 모델이다.

더우바오팀은 바이트댄스 내부에 2023년 만들어졌다. 더우바오팀은 최첨단 AI 대형 모델 기술 개발을 전담하고 있다. 연구 방향은 딥러닝, 강화 학습, 대규모 언어 모델(LLM), AI 음성 인식, AI 시각 인식, AI 인프라, AI 보안 등이다.

ys1744@newspim.com

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.