[그게 뭔가요] 엔비디아의 물리 AI, 원래 있었던 거 아니에요?

2025-01-21

엔비디아의 젠슨 황 CEO가 2025년 CES에서 물리 AI(Physical AI)를 공개했습니다. 황 CEO는 이를 “AI가 텍스트와 이미지를 넘어 3D 세계에서 상호작용하며 행동으로 응답하는 기술”로 정의하며, “물리 AI는 제조업, 물류, 자율주행, 로보틱스 등 모든 산업의 혁신을 이끌 핵심 기술이 될 것”이라고 강조했습니다. 그런데 원래 3D는 모두 물리적인 것들이 아닐까요?

사실 엔비디아가 이번에 발표한 물리 AI는 기존에도 비슷한 개념이 있었습니다. 주로 스마트 시티로 부르는 것들이죠. 도시 전체, 혹은 일부라도 디지털 트윈화하고, 도로 주행이나 인도 통행에 필요한 요소들, 신호등이나 횡단보도, 자율주행차 등이 서로 통신해 추돌사고 등을 막고 도로 순환을 더 빠르게 하겠다는 개념이 있었죠. 그런데 스마트 시티 구축은 쉽지 않습니다. 신호등 등의 IoT 플랫폼은 플랫폼대로, 자율주행차는 자율주행차대로 발전하고 있기 때문이죠. 자율주행차 입장에서는 IoT 플랫폼(신호등 등)이 주는 정보만 믿다가 사람을 쳐버리면 큰일 나는 거니까요. 도시 IoT화도 쉽지는 않습니다. 엣지컴퓨팅 등 인프라(돈)가 들어가니 한꺼번에 확 구축할 수 없죠.

그 와중에 생성형 AI가 등장했죠. 자율주행차 나름대로는 각종 센서를 통해 사고를 예방하겠지만, 도시 환경에 대한 일반적인 학습 외에도 ‘생성적’ 학습이 가능해진 겁니다. 여기에 디지털 트윈을 붙이면 도로 주행이 더 안전해지겠죠. 디지털 트윈은 실제의 건물이나 도로, 도시 등의 3D 복사본을 똑같은 크기로 만드는 것을 말합니다. 그 안에서 똑같은 크기의 자율주행차로 ‘생성적으로’ 훈련하면 자율주행이 훨씬 빨라지고 안전해진다는 게 엔비디아가 주장하는 물리적 AI입니다.

이 생각의 흐름에서 가장 중요한 건 우선 월드 파운데이션 모델(WFM)입니다. 세상을 ‘생성적’으로 모델링한다니 거창한 이름이죠?

월드 파운데이션 모델 – 물리 AI의 핵심

월드 파운데이션 모델은 물리 AI의 발전을 이끄는 중심 기술입니다. 아까 말했던 디지털 트윈을 만들어 물리적 환경의 복잡한 상호작용을 예측하고 시뮬레이션하는 데 사용합니다.

밍유 리우(Ming-Yu Liu) 엔비디아 연구 부사장은 WFM의 중요성에 대해 “WFM은 물리 AI 시스템 개발자들이 현실 세계의 다양한 환경을 가상으로 상상하고, 이를 바탕으로 미래를 예측하며 올바른 결정을 내릴 수 있도록 돕는다”고 설명했습니다.

WFM은 방대한 양의 데이터를 바탕으로 물리적 상호작용을 학습하며, 텍스트, 이미지, 비디오 입력 데이터를 통해 다음 상태를 예측하거나 상세한 비디오를 생성할 수 있습니다. 사실 기존 디지털 트윈에도 있던 건데, 생성형 모델이 붙으니 조금 더 위협적인 상황에 대응할 수 있다는 정도로 봐야겠죠.

이 WFM은 자율주행 차량, 로보틱스에 사용합니다.

우선 자율주행 차량에서는 다양한 기상 조건과 교통 시나리오를 시뮬레이션해 자율주행차의 안전성을 개선하는 데 씁니다. 현재 자율주행 레벨 3 자동차는 대부분의 위협을 피해 갈 수 있습니다만, 자율주행차가 겪어보지 못한 상황이 갑자기 등장할 수도 있잖아요. 그걸 미리 WFM에서 훈련시키겠다는 이야깁니다.

비슷한 개념을 조금 축소하면 공장 내 자율 이동 로봇(AMR)에도 쓸 수 있게 됩니다. 이미 공장들은 상당수가 디지털 트윈화돼 있는데요. 물류자동화를 위해 로봇들이 이동하면서, 사람의 갑작스러운 등장 등에 대응할 수 있도록 훈련할 수 있게 되겠죠. 만약 로봇팔을 단다면 지금보다 더 많은 직무를 수행할 수도 있게 될 겁니다. 이것이 발전하면 휴머노이드가 될 거고요. 정밀하게 움직일 수 있는 휴머노이드를 또 시뮬레이션해 학습시킨다면 사람이 할 수 없는 위험한 일들도 수행할 수 있게 되겠죠. 이외에도 엔비디아는 수술 로봇 같은 제품에도 대응하고 있습니다. 바늘에 실을 꿰거나 봉합하는 데 쓸 수 있겠죠.

그렇다면 이 가상 세계는 무엇으로 만들게 될까요? 엔비디아의 옴니버스입니다.

옴니버스 – 디지털 트윈 기반 산업 최적화

엔비디아는 과거 옴니버스를 메타버스 구축용 서비스로 내놓았습니다. 그런데 메타버스 인기가 시들해지자 이를 디지털 트윈 플랫폼으로 변모시켰죠. 어차피 3D 월드를 만드는 개념이니 크게 다를 건 없습니다. 이 제품을 CES에서 ‘메가(Mega) Omniverse Blueprint로 확장시키며, 산업용 디지털 트윈 제작 및 시뮬레이션 및 최적화 프레임워크로 소개했습니다.

따라서 옴니버스 블루프린트는 디지털 트윈 시뮬레이션 기능을 제공합니다. 창고, 공장, 물류 네트워크 등 실제 환경을 3D로 복제해 로봇, 자율 시스템, 인간 작업자의 동작 등을 시뮬레이션하게 합니다.

또한 센서 데이터 통합 기능도 제공합니다. 이 부분이 중요한데요. 각 센서와 디지털 트윈이 Omniverse Cloud Sensor RTX API를 통해 고충실도 센서 데이터를 즉각적으로 렌더링해 다양한 시나리오에서 테스트를 진행합니다. 처음에 말한 스마트 시티와 자율주행차 간의 관계와 비슷해졌죠? 스마트 시티보다 규모는 작지만 센서와 자율 주행 로봇, 디지털 트윈이 전부 서로 통신해 안전사고를 방지한다는 이야기입니다.

이렇게 작동하면 운영 효율은 당연히 최적화될 겁니다. 로봇, 장비, 인간 작업자가 조화롭게 협업할 수 있으니까요. 또한 모든 데이터를 다 저장할 테니 새로운 최적화를 찾아낼 수도 있겠죠.

현재 공급망 솔루션 기업인 키온(KION) Group은 메가 옴니버스 블루프린트를 통해 창고 디지털 트윈을 구현하고, AI 기반 로봇 브레인을 훈련하여 물류 네트워크를 혁신 중입니다. 이 디지털 트윈은 로봇의 경로와 작업을 계획하고, 이를 반복적으로 테스트해 최적의 결과를 도출합니다.

이야기만 보면 아름다운데, 이 복잡한 것들은 어떻게 개발할 수 있을까요? 엔비디아가 새롭게 발표한 코스모스 WFM으로 개발합니다.

코스모스 WFM – 물리 AI 개발을 위한 개방형 플랫폼

아까는 월드라더니 이제는 코스모스까지 확장한다니 네이밍에 너무 자신감을 넣은 게 아닌가 싶은데요. 우주 말고 질서라는 뜻도 있으니 넘어갑시다. 코스모스 WFM은 엔비디아가 발표한 물리 AI 개발 플랫폼으로, 합성 데이터를 생성하고 물리 AI 모델을 미세 조정할 수 있는 도구입니다.

코스모스 WFM의 플랫폼은 다른 딥러닝과 유사합니다. 확산(Diffusion) 및 자동 회귀(Auto-regressive) 모델 등을 사용합니다. 다양한 데이터 형식을 지원하며, 물리 인지 비디오와 월드 상태를 생성할 수 있습니다.

또한, 코스모스는 물리 AI 모델 훈련을 위한 대규모 합성 데이터를 생성하며, 실제 환경과 시뮬레이션 간의 격차를 줄입니다.

활용 데이터에는 다양한 것이 있겠지만요. 코스모스는 텍스트-투-월드 및 비디오-투-월드 기능도 제공합니다. 텍스트와 비디오 데이터를 활용해서 물리적 환경을 재현하고, 이를 바탕으로 다양한 시뮬레이션을 생성하는 거죠.

개발자는 NVIDIA의 NeMo 프레임워크를 통해 코스모스 모델을 맞춤화하고, 필요에 따라 특정 애플리케이션에 적합한 데이터를 활용할 수 있습니다. CES에서 공개된 코스모스는 자율주행차 및 로보틱스 분야에서 큰 주목을 받았으며, 와비(Waabi)와 같은 기업이 이를 활용해 차세대 자율주행차를 개발하고 있습니다.

그러니까 코스모스는 주로 자율주행차와 자율주행로봇에 쓰이는 건데요. 엔비디아는 CES 키노트에서 휴머노이드 개발도 지원한다고 밝혔습니다. 휴머노이드 플랫폼은 또 달라요. 아이작 그룻 블루프린트(Isaac GR00T Blueprint)를 사용합니다.

아이작 그룻 블루프인트 – 휴머노이드 로봇 개발 가속화

아이작 그룻 블루프린트는 합성 데이터를 활용해 휴머노이드 로봇의 학습을 가속화하는 프레임워크입니다. 주로 인간 시연 데이터를 로봇 훈련에 활용할 수 있도록 설계됐습니다. 주로 네 방향으로 움직이는 자율주행 기기들과는 달리 3D에서 복잡한 움직임을 구현하는 데 쓰입니다. 그래서 학습 방식도 조금 다릅니다.

우선 GR00T-Teleop으로 부르는 기능을 통해 인간 동작을 캡처하고 디지털 트윈 환경에서 기록합니다. 엔비디아가 시연에서 선보인 제품은 애플 비전 프로를 쓰고 인간 동작을 기록하는 것이었습니다.

데이터가 캡처된 다음에는 GR00T-Mimic을 사용해 대규모 합성 데이터셋으로 확장합니다. 이 과정에서 로봇이 인간을 모방하게 되겠죠.

이후에는 GR00T-Gen을 통해 아까 말한 옴니버스 및 코스모스와 결합합니다. 인간 행동 양태가 기록되었으니, 이를 디지털 트윈과 물리적 환경과 결합해야 하겠죠? 이렇게 하면 엔비디아가 생각하는 지구 정복 시나리오가 완성됩니다. 이건 농담이고요. 로봇이 노동착취를 당하게 됩니다. 이것도 농담이고요. 사람이 할 수 있는 어려운 일을 시작할 겁니다.

아이작 블루프린트는 프레임워크입니다. 비용을 지불하면 다른 기업도 사용할 수 있다는 의미죠. 예를 들어 휴머노이드 업계의 황태자인 보스턴 다이내믹스와 같은 로봇 제조업체들이 고품질 데이터를 생성하고 이를 활용해 휴머노이드 로봇의 기술을 정교하게 만드는 데 사용할 수 있겠죠. 실제로 쓰고 있다고 합니다.

젠슨 황은 “아이작 그룻은 인간 동작을 학습하고, 이를 바탕으로 로봇이 복잡한 환경에서 효과적으로 작동할 수 있도록 돕는 혁신적인 도구”라고 강조했습니다.

요약하자면 엔비디아가 생각하는 물리 AI는 기존에 각각 따르게 발전하고 있던 IoT 생태계와 자율주행차 생태계, 디지털 트윈을 모두 섞은 뒤 생성형 AI까지 넣어서 모든 걸 연동되게 만들겠다는 겁니다. 이렇게 하면 디지털 트윈이 만들어진 실제 세계에서는 대부분의 사고가 예상 가능하게 되고, 이를 우회하게 되겠죠. 시뮬레이션을 많이 거쳤으니 예상치 못한 사고가 적고, 혹여나 예상 불가의 사고가 등장하면 센서들이 온 힘을 모아 사고를 방지하도록 노력하겠죠.

이 플랫폼이 제대로 동작하게 하려면 기업들은 모델 훈련에 엔비디아 GPU와 서버를 더 많이 사용하게 됩니다. 엔비디아는 GPU도 잘 만들지만 보통 이렇게 소프트웨어를 잘 만들어서 엔비디아 GPU를 안 쓸 수 없게 만드는 기업입니다. 무서운 회사죠.

물리 AI가 제대로 먹힌다면?

엔비디아의 물리 AI 기술은 제조, 물류, 자율주행, 로봇 공학 등 모든 산업에 큰 변화를 가져올 잠재력’은’ 가지고 있습니다. 사실 S사(삼성 아닙니다)나 D사 등 디지털 트윈이나 시뮬레이션 소프트웨어 강자들이 기존에 존재하고 있기 때문에 엔비디아가 다 집어삼킬 수 있을지는 미지수입니다.

다만 아이디어와 추진력 자체는 굉장합니다. 디지털 트윈에 자율주행을 붙이다뇨. 그리고 그걸 개발하기 위해서 WFM, 옴니버스, 코스모스, 아이작 그룻 같은 소프트웨어를 한꺼번에 내놓는 역량도 대단하다고밖에 말할 수 없습니다. 앞으로 상당수의 개발자와 기업들이 물리적 세계에서 새로운 가능성을 탐구할 수 있게 되겠죠.

엔비디아의 영향 덕분에 앞으로 건축, 도시 건설, 의료, 자율주행 등 다양한 분야에 디지털 트윈과 생성 AI가 쓰일 것 같습니다. 많은 것들이 효율화되겠고 편리해지겠죠. 그런데 우리 업계 분들은 당장 많이 바쁘실 것 같네요. 그리고 실제 세계 대부분이 복제된다니, 그 속에 들락날락해야 하는 존재로서 두려움도 느껴집니다. 저만 그런 걸까요?

하여튼 엔비디아가 만들어가는 세상, 빅브라더가 되지 않도록 우리 모두 열심히 지켜봅시다.

글. 바이라인네트워크

<이종철 기자> jude@byline.network

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.