인공지능(AI) 발달사는 거대언어모델(LLM), 거대멀티모달모델(LMM), 거대행동모델(LAM)로 이어지는 모델 발달사이기도 하다.
LLM은 텍스트를 처리한다. 2022년 말 등장한 챗GPT 이후 LLM은 지난해 말에 나온 GPT-4o3에 이르기까지 전문가의 지식 추론 능력을 능가하는 수준으로 도약했다. 그동안 AI 개발의 걸림돌 중 하나는 인간의 소통과 추론에서 사용되는 기호와 논리에 발견되는 명확함과 불명확함의 공존이었다. 최신 LLM 모델들이 이 문제를 해결하며 진일보했다.
LMM은 텍스트에 더해 이미지·음성·영상을 처리한다. 급기야 거대행동모델(LAM)은 행동을 추가했다. LAM 덕분에 로봇은 사고뿐만 아니라 ‘물리적’인 행동까지 가능하다. AI는 이제 물리적인 실제 세계와 상호작용하며 작동한다.
AI 물리 혁명의 선구자 중 한 명인 엔비디아 젠슨 황 회장이 6일 이렇게 말했다. “로봇의 챗GPT 모멘트가 임박했다.” 로봇 기술의 혁명적 도약을 실증하듯, 엔비디아는 6일 물리적 AI 개발 플랫폼인 ‘코스모스’를 발표했다. 코스모스의 목적은 로봇·자율주행차에 필요한 ‘물리인공지능’(Physics-AI) 개발의 가속화다.
LAM을 통해 휴머노이드 로봇은 인간의 행동 패턴을 학습하고, 독립적인 동작을 수행한다. 나아가 적응력을 발휘해 스스로 동작을 수정하고 환경에 적응한다. LAM에 대한 이해를 돕는 일상 사례가 두 개 있다. ‘물컵을 손으로 집어서 입으로 가져오기’를 특수 카메라로 분석하면 팔·손목·손가락의 가속과 감속, 손가락이 펴지는 타이밍, 물컵을 잡을 때의 손의 멈춤 동작이 매우 치밀하다. 그동안 휴머노이드에 이러한 인간의 감각적이고 정교한 행동제어를 일일이 가르쳤다. LAM을 도입한 휴머노이드는 대규모 행동 데이터를 통해 자동으로 최적의 움직임을 학습한다.
두 번째 사례는 맥주병 따기다. 맥주병과 뚜껑은 회사마다 모양이 다르다. 특정 맥주병을 따는 로봇 팔 하나에 박사학위 논문 하나가 나온다는 우스개 소리도 있었다. 인간에게는 지극히 쉬운 맥주병 따기에 필요한 행동 적응과 제어능력을 로봇에 심는 일은 엄청난 난제였다. 수많은 휴머노이드 로봇 관련 회사가 사라질 정도였다.
LAM 역시 LLM처럼 글로벌 빅테크가 주도한다. 레인보우로보틱스를 인수한 삼성전자와 LG전자도 치열한 연구개발 전쟁에 뛰어들었다. 휴머노이드 시장은 올해 15억 달러에서 10년 후 378억 달러로 성장이 예측된다. 지방 소멸, 인구 집중, 노동력 부족, 복지 수요 증대와 같은 노동력과 관련된 사회적 난제를 휴머노이드 로봇이 해결하리라 세계가 기대한다.
이수화 한림대학교 AI융합연구원 연구교수