‘초보자 체스’에서 무너진 AI
'일 대 일억' 싸움에서 진 챗GPT
[디지털포스트(PC사랑)=이백현 기자] "AI가 인간을 능가할까?" 이 물음에 고개를 끄덕이던 사람들도, 최근 벌어진 한 실험의 결과를 보고선 멈칫할지도 모릅니다.
올 6월, 오픈AI 최신 인공지능 모델인 챗GPT-4o가 1977년 출시된 고전 게임기 아타리 2600의 체스 엔진에 패배한 사건이 전 세계 개발자 커뮤니티를 중심으로 퍼졌기 때문입니다. 실험을 한 AI 개발자, 로버트 주니어 카루소는 6월 8일 링크드인에 이 결과를 공유하며 “챗GPT가 완전히 박살났다"고 표현했죠.
과연 어떤 일이 벌어진 걸까요?

로버트 주니어 카루소의 실험은 단순한 AI 대화로부터 비롯됐습니다. 그는 챗GPT와 체스의 역사에 대해 대화하던 도중, 챗GPT로부터 아타리 2600과 게임을 하게 해 달라는 요청을 받았습니다.
최신 AI 모델이 거의 50년 된 게임기에서 돌아가는 체스 게임을 이길 수 있을까? 그는 그게 재미있는 실험이라고 생각했습니다. 아타리 2600은 1977년에 출시된 거치형 게임기로, 체스 프로그램은 단지 한두 수 앞밖에 내다보지 못하는 수준의 엔진입니다. 그야말로 ‘초보자용’ 체스죠. 체스 엔진이 구동되는 게임기의 두뇌인 중앙처리장치(CPU)는 최초의 PC(개인용컴퓨터)인 애플 II와 유사한 성능을 가졌습니다. 구식 스마트폰과 단순 비교해도 1억배~1조배 수준의 연산능력 차이로, 비교하는 게 무의미할 정도입니다.

하지만 대전의 결과는 충격적이었습니다. 클라우드에서 고성능 그래픽처리장치(GPU)로 구동되는 챗GPT는 기물의 위치를 혼동하고, 룩과 비숍을 제대로 구분하지 못하는 등, 초등학생 체스 클럽에서조차 통과 못할 실수를 반복했습니다. 챗GPT는 에뮬레이터에서 구동되는 아타리 2600 내 체스판의 아이콘이 너무 추상적이라 인식이 어렵다는 이유를 내세웠지만, 아이콘을 바꿔도, 상황은 나아지지 않았죠. 실험을 진행한 로버트 주니어 칼루소는 90분동안 챗GPT가 엉망인 수를 두려는 것을 말리고, 기물에 대한 인식을 도와가며 아타리 2600에 대한 도전을 도왔지만, 결국 챗GPT가 졌다는 것을 인정했다고 밝혔습니다.
그렇다면 왜 이런 일이 일어난 걸까요?
챗GPT, 즉 대형언어모델(LLM)이 잘하는 것은 말 그대로 ‘언어’입니다. 문장을 이해하고, 논리를 구성하고, 요약하고 번역하는 데는 탁월하죠. 하지만 체스는 언어가 아닌, 상태 추적과 수 계산의 영역입니다. 현재 기물의 위치, 상대의 다음 수, 나의 다음 전략을 머릿속에서 연산하고 반영해야 하죠. 인간은 이를 ‘직관’으로 처리하기도 하지만, 체스 엔진은 철저히 계산으로 접근합니다.
이 실험이 흥미로운 이유는 바로 여기 있습니다. 거대언어모델로 만들어진 챗GPT는 놀라운 텍스트 생성 능력을 갖고 있지만, 그 기반은 어디까지나 ‘텍스트 예측’이거든요. 1+1을 질문해도 챗GPT는 계산을 하지 않습니다. 단지 1+1이라는 텍스트 앞에 2가 놓일 가능성이 높기 때문에 그렇게 대답하는 거죠. 즉 이번 실험은 거대언어모델이 계산 영역에 얼마나 취약한지 알려주는 사례에 해당합니다.
반면 아타리 2600의 체스 엔진은 단순하고 느립니다. 박물관에서 볼 법한 구식 게임기에서 작동하고, CPU 성능은 1977년이라는 시대에 걸맞는 수준입니다. 하지만 ‘인간 개발자’가 딱 체스 하나만을 위해 설계했고, 이 부분은 챗GPT보다 유능했습니다.
이는 다양한 시사점을 남기는 사건입니다.
왜냐하면 구식 스마트폰조차 이미 고전 게임기인 아타리 2600의 연산 성능을 최소 1억배 이상 초과합니다. 만약 챗GPT를 구동하는 고성능 서버 시스템에서 챗GPT 대신 아타리 2600 체스 엔진을 구동한다면, 아주 보수적으로 계산해도 최소 억 단위의 게임을 동시에 치러낼 수 있다는 의미입니다.
하지만 그만한 연산 능력을 가지고도 챗GPT는 아타리 2600을 이기기는커녕, 대등한 싸움조차 제대로 치러낼 수 없었습니다. 전쟁에서 단 한명과 1억명이 전투를 치렀는데, 그 한명이 승리한 것과 마찬가지인 상황이죠.
이것은 대화형 AI, 즉 거대언어모델(LLM)의 한계를 명확하게 드러내는 사례입니다. 정확히는, 아직 AI가 일반인공지능(AGI)에 도달하지 못했다는 명확한 증거로 해석해야 합니다.
AGI는 흔히 인간과 동일한 수준의 인공지능으로, 모든 영역에서 개발자의 손을 거치지 않고도 자연스럽게 사용할 수 있는 ‘범용 AI’로 묘사됩니다. 쉽게 말해서 인간이 할 수 있다면, AI도 할 수 있어야 한다는 것입니다.
즉 현재의 거대언어모델(LLM)이 AGI 근처에라도 도달했다면, 챗GPT는 시간이 오래 걸려서라도 사진의 아타리 2600를 이길 수 있었거나, 이길 수 있는 체스 프로그램의 코드를 직접 생성해냈을 것입니다. 그러지 못했다는 것은, 아직 AI와 AGI에 1억~1조배 수준의 연산 능력으로도 메꿀 수 없는 ‘중대한 차이’가 있다는 의미죠.
물론 모든 AI가 간단한 체스 프로그램에 진다는 이야기는 아닙니다. 당장 체스보다 훨씬 복잡한 게임인 바둑에서, 인간 상대로 완벽한 승리를 쟁취한 ‘알파고’도 존재하니까요. 이세돌 9단과 알파고와 바둑으로 대국해 1승 4패로의 전적을 남긴 ‘구글 딥마인드 챌린지 매치’가 2016년에 치러졌던 행사로, 이제 10여년이 흘렀습니다. 인간 플레이어가 체스로 컴퓨터를 이기지 못하게 된 것은 훨씬 더 전이고요.
다만 AI가 사람들이 기대하는 것처럼 ‘만병통치약’이 아니라는 것을 환기시킬 필요는 있습니다. AGI는 당연히 글을 쓸 수도 있고, 체스도 둘 수도 있겠지만, 챗GPT에겐 아직 그럴 능력이 없어 보입니다.
[관련 기사] 일반인공지능도 멀었는데... '초인공지능(ASI)' 설레발
저작권자 © 디지털포스트(PC사랑) 무단전재 및 재배포 금지