차세대 인공지능(AI)의 경쟁력은, 물리적 세계를 이해하고 시뮬레이션하는 능력에 달려 있다. 이는 ‘정보 처리 AI’를 넘어, ‘행동하는 AI’로의 진화를 의미한다고 미국의 경제지 월스트리트저널(WSJ)이 최근 보도했다.
현재의 AI는 텍스트와 영상 데이터에 기반한 ‘이론적 지식(Book smart)’에는 강하다. 하지만, 물리 법칙과 인과관계를 이해하는 ‘현실 감각(Street smart)’은 부족하다. 이를 극복하기 위해 등장한 개념이 ‘월드 모델(World Models)’이라는 것.
월드 모델은 AI가 현실과 유사한 정교한 가상 시뮬레이션 속에서 시행착오를 겪으며 학습하게 하는 기술이다. 공간 추론과 논리적 판단 능력을 키워준다고 WSJ은 밝혔다. 구글 딥마인드의 ‘지니 3(Genie 3)’나, 자율주행 기업 ‘와비(Waabi)’의 시뮬레이션 등이 대표적인 예.
젠슨 황과 페이페이 리 등 AI 거물들도, 이 기술이 로봇 공학 및 범용인공지능(AGI) 실현의 핵심이라고 입을 모은다. 결론적으로 월드 모델은, AI가 단순한 언어 처리를 넘어 물리적 세계에서 로봇이나 자율주행차 형태로 인간의 트럭 운전, 배관 등 육체노동 영역까지 대체할 수 있는 길을 열고 있다는 것.
WSJ에 따르면, 차세대 AI기술인 ‘월드 모델’이 부상하고 있다. 이는 AI 텍스트와 비디오 데이터에 의존하는 ‘생성형 AI’의 한계를 넘어, 물리적 환경을 이해하고 상호작용할 수 있는 차세대 AI 기술.
텍스트와 비디오 너머의 지식을 개발하기 위해, AI는 실수를 저지르며 학습할 수 있는 현실적인 가상 놀이터가 필요하다고 WSJ은 설명했다. 구글의 ‘지니 3’를 통해 렌더링 된 AI 생성 3차원(3D) 환경은 다른 AI를 훈련하는 데 사용된다.
오늘날의 AI는 소위 ‘책상물림’으로, 그들이 아는 모든 것은 기존의 언어, 이미지, 비디오에서 학습한 것이다. 더 진화하기 위해서, AI는 ‘현장 감각’을 익혀야 한다. 그리고 여기에는 ‘월드 모델’이 필요하다.
‘월드 모델’은 인간이나 동물이 하는 것처럼, AI가 환경으로부터 학습할 수 있게 하는 것이 핵심. 그 환경의 추상적인 버전을 AI들의 ‘머릿속’에 충실히 재현할 수 있게 하는 것이다. 이를 위해 개발자들은, 세계의 시뮬레이션을 사용해 AI를 훈련해야 한다. 이는 ‘그란 투리스모’ 게임을 하며 운전을 배우거나, ‘마이크로소프트 플라이트 시뮬레이터’로 비행을 배우는 것과 비슷하다고 생각하면 된다. 이러한 월드 모델에는 계획을 수립하고, 행동을 취하고, 미래를 예측하는 데 필요한 물리 법칙과 시간 개념을 포함한 모든 것이 들어있다.
‘월드 모델’은 시뮬레이션 훈련 환경과 추상적 표현 방식 모두를 다소 혼란스럽게 지칭하기도 한다. 하지만, 이 ‘월드 모델’ 접근법은 이미 현실 세계에 잠재적으로 거대한 영향을 미치고 있다. △드론 전쟁, △새로운 종류의 로봇, △인간보다 안전한 자율 주행 차량 모두가 이 기술의 혜택을 받고 있다고, 벤처 캐피털 회사인 라이트스피드의 파트너이자 투자자인 모리츠 바이어 렌츠는 말한다.
AI 선구자들 사이에서는, 월드 모델이 차세대 AI를 만드는 데 결정적이라는 거의 만장일치에 가까운 믿음이 있다. 이것이 언젠가 인간보다 뛰어난 ‘AGI’를 만드는 데 필수적일 것이라고 많은 전문가는 말한다. 스탠퍼드 대학 교수이자 AI의 ‘대모’로 불리는 페이페이 리는, 월드 모델 스타트업인 ‘월드 랩스(World Labs)’를 시작하기 위해 2억 3000만 달러(약 3376억 8600만 원)를 모금했다.
또한, 엔비디아의 최고경영자(CEO) 젠슨 황은 월드 모델이 로봇, 자율 주행 자동차 등을 자율적으로 지휘하는 ‘물리적 AI(Physical AI)’의 잠금을 해제하는 데 도움이 될 것이라고 언급했다. 현재는 거대언어모델(LLM)과 챗지피티를 가능하게 한 AI 유형이 모든 관심을 독차지하고 있다. 하지만, 프런티어 연구에서 추진력을 얻고 있으며 기술이 우리 삶에서 새로운 역할을 맡게 할 수 있는 것은 바로 ‘월드 모델 기반 AI’이다.
이러한 모든 베팅이 기업 리더들이 예측하는 ‘초지능(superintelligence)’으로 이어질지는 불분명하다. 그러나 단기적으로 월드 모델은 현재 AI들이 어려움을 겪는 작업, 특히 공간 추론(spatial reasoning) 능력을 향상시킬 수 있다고 WSJ은 분석했다. 해안 도로의 허리케인 조건을 포함한 ‘지니 3’의 월드 모델은 AI가 현실 세계의 위험을 이해하는 데 도움을 줄 수 있다는 것.
“오늘날의 생성형 AI가 아무리 많은 데이터를 훈련받더라도, 그들은 세상이 어떻게 작동하는지에 대한 확률적 모델만 학습할 수 있다”. 우버의 AI 부문 전 대표이자 현재 AI 접근 방식에 대한 비판가인 게리 마커스는 WSJ에 이렇게 말한다.
근본적으로 오늘날의 AI는, 입력된 모든 데이터 사이의 상관관계를 학습한다. 그것이 단어와 이미지로 구성되었든, 분자와 그 기능으로 구성되었든 말이다. 이러한 흐릿한 근사치는 종종 불완전하거나 자기 모순적인 데이터, 그리고 이를 조작하는 거대한 규칙 목록의 혼합체로 AI의 ‘뇌’에 인코딩되는 것으로 보인다.
이에 대한 좋은 예가 있다고 WSJ은 강조했다. 1979년 프로그램이 실행되는 아타리(Atari) 2600 게임기가, 체스에서 최첨단 챗봇을 이길 수 있다는 것. 챗봇들은 불법적인 이동을 시도하거나 말의 위치를 금방 잊어버리는 경향이 있다.
WSJ에 따르면, 본질적으로 오늘날의 트랜스포머 기반 AI는 논리적으로 추론하기보다는 예측을 하고 있다. 이는 그들이 수많은 게임과 규칙서에 노출됐음에도 불구하고 벌어지는 일이다. 아타리가 승리하는 이유는 데이터베이스라는 오래되고 소박한 버전의 내부 월드 모델을 사용해, 말의 위치를 정확히 파악하고 있기 때문이다.
아타리뿐만 아니라, 살아있는 모든 인간을 체스에서 이길 수 있는 AI들도 존재한다. 2019년에 출시된 구글의 뮤제로(MuZero)는, 그 뒤를 이은 생성형 AI 봇들과는 상당히 다른 방식으로 구축됐다. 뮤제로는 게임의 정확한 표현을 생성하는 방법을 학습함으로써 성공했다.
그렇다면, 게임의 제한된 세계보다 훨씬 더 복잡한 현실 세계에서 일어나는 작업은 어떨까? 이 과제를 해결하기 위해 구글 딥마인드 연구원들은, 전례 없는 수준의 충실도로 현실 세계 시뮬레이션을 생성할 수 있는 시스템을 만들기 시작했다. 시뮬레이션 환경에서 인간의 행동을 관찰함으로써, AI는 사람들과 상호작용하고 그들을 모방하는 법을 배울 수 있다.
그 결과물이 ‘지니 3(Genie 3)’라고 WSJ은 지적했다. 이는 아직 연구용 미리보기 단계이며, 일반에 공개되지 않는다. 이는 텍스트 프롬프트만으로, 사진처럼 사실적인 오픈 월드 가상 풍경을 생성할 수 있다.
지니 3는 본질적으로 사용자가 원하는 만큼, 현실 세계에 충실한 오픈 월드 비디오 게임을 빠르게 생성하는 방법이라고 생각하면 된다는 것. 이것은 ‘아기 AI’가 끝없이 놀고, 실수를 저지르고, 목표를 달성하기 위해 무엇을 해야 하는지 배울 수 있는 가상 공간이다. 마치 아기 동물이나 인간이, 현실 세계에서 하는 것처럼 말이다. 이러한 실험 과정을 강화 학습(reinforcement learning)이라고 한다.
지니 3는 언젠가 로봇, 자율 주행 차 및 기타 ‘신체화된(embodied)’ AI를 조종할 AI를 훈련하는 데 도움이 될 시스템의 일부라고, 프로젝트 공동 리드인 잭 파커 홀더는 WSJ에 말한다. 그리고 그 환경은 사람들과 장애물로 채워질 수 있다. AI는 그 가상 공간에서 움직이는 사람들을 관찰함으로써 인간과 상호작용하는 법을 배울 수 있다고 그는 덧붙인다.
사람들이 가상 환경에서 어떻게 행동하는지에 대한 거대한 데이터 소스는, 이미 잠재적으로 존재한다. 예를 들어, 비디오 게임 내의 게임 플레이와 사용자 행동을 모두 캡처하는 서비스인 메덜 티비(Medal.tv)와 같은 곳이다. 이러한 데이터 소스는 AGI에 도달하려는 다양한 프런티어 AI 연구소들과, 로봇을 조종할 수 있는 AI에게 특히 유용하고 가치 있을 수 있다.
결국, 가상 환경에서의 이 모든 학습은 더 똑똑한 챗봇뿐만 아니라 현실 세계에서 안전하게 작동할 수 있는 시스템으로 이어질 수 있다. 와비는 인간 운전자 없이 트럭을 조종할 AI를 훈련하기 위해 사진처럼 사실적인 시뮬레이션 '와비 월드'를 구축했다.
토론토에 본사를 둔 와비는, 오직 트럭 운전 AI를 훈련하기 위해 ‘와비 월드’라는 전체 세계를 구축했다. 현실 세계에서 단 한 번이라도 충돌하는 것보다, 시뮬레이션에서 반복해서 충돌하게 두는 것이 훨씬 안전하고 저렴하다. 이 회사의 CEO인 라켈 우르타순은 이를 통해, AI가 수백만 마일의 가상 운전을 기록할 수 있다고 WSJ에 말한다. 와비의 소프트웨어가 올해 말까지 실제 도로에서 실제 트럭을 자율적으로 조종할 수 있을 것으로 예상한다고 그녀는 덧붙였다.
LLM은 이미 사무직 일자리의 일부 기능을 대체하고 있는 것으로 보인다. 월드 모델로 똑똑해진 AI는 더 많은 영역을 대체할 수 있게 할 것이다. 육체노동은 비교적 안전지대였다. 하지만 AI 개발자들이 월드 모델을 더 깊이 파고들수록, 로봇들이 트럭 운전사, 배관공 또는 간병인으로서 일자리에 지원하기 시작할지도 모른다고 WSJ은 강조했다.
권세인 기자
[ⓒ데이터저널리즘의 중심 데이터뉴스 - 무단전재 & 재배포 금지]
![[人사이트]박광선 어플라이드코리아 대표 “韓 R&D센터, AI 반도체 협업 거점으로”](https://img.etnews.com/news/article/2024/12/17/news-p.v1.20241217.bb8b8d1a91b242d1986be3d1d44db53d_P1.jpg)
![[ET톡]나를 알아야 AI를 더 잘 쓴다](https://img.etnews.com/news/article/2025/12/03/news-p.v1.20251203.3cb35ac1e8934af28f973ffb5890fff8_P3.jpg)
 AI와 함께 사는 시대, 우리가 잃어버리는 것들](https://www.domin.co.kr/news/photo/202512/1537526_737414_484.jpg)
![[ET단상]인간을 위한 AI, 미래 디지털 철도안전을 기대한다](https://img.etnews.com/news/article/2025/11/18/news-p.v1.20251118.eb96eafd3b2f4c0993b2a92fb319e017_P3.jpg)
![[아이랑GO] 엔비디아 GPU 26만장 받아도 못쓰나…AI 전력난 해결 시급…중국어도 쏙쏙 들어오는 쏙쏙만평](https://pds.joongang.co.kr/news/component/htmlphoto_mmdata/202512/02/6b772d71-7807-46df-b2b3-b0538231fcd6.jpg)

