
AI 모델의 정확도를 다룬 애플의 논문에 반론이 제기됐다. 애플은 최근 널리 쓰이는 대규모추론모델(LRM)들이 매우 복잡한 문제를 거의 해결하지 못한다는 자체 실험 결과를 내세웠으나, 이 실험이 설계부터 잘못됐다는 지적을 받았다.
애플 “복잡한 문제에서 LRM 정확도 거의 0%”
애플은 지난 5일(현지시각) ‘사고의 환상(The Illusion of Thinking)’이라는 논문을 자사 머신러닝 홈페이지를 통해 발표했다. LRM이 고도로 복잡한 문제에서 정확도가 떨어진다는 내용이 주요 골자다.
기존 대형언어모델(LLM)을 평가할 땐 최종 답변이 얼마나 정확한지 중점적으로 본다. 그래서 주요 모델 평가 방법도 답변의 정확도에 초점을 맞춘다. 반면 LRM은 답변을 제시하기 전에 분석·추론하는 과정의 성능도 중요하게 따져야 한다.
이에 애플은 하노이탑(원판 옮기기 게임)을 비롯한 네 가지 추론 퍼즐 게임을 이용해 LRM과 LLM의 성능을 비교했다. 원판의 수 같은 기본 조건을 변경함으로써 난이도 조절이 용이하고, 퍼즐을 정확하게 푸는(최종 답변) 성능뿐만 아니라 퍼즐을 풀기 위해 생각하는(추론) 성능도 파악할 수 있다.
실험에 사용한 LRM은 오픈AI의 o1와 o3, 딥시크-R1, 클로드 3.7 소넷 추론 버전, 제미나이 추론 버전이다. 또한 각 LRM의 기반이 된 LLM도 함께 퍼즐을 풀었다. 그 결과 퍼즐의 난이도에 따라 유리한 모델 종류가 달랐다. 간단한 퍼즐에서는 LLM의 성능이 LRM을 앞섰다. 애플은 “단순한 문제를 풀 땐 추론한다는 과정이 오히려 비효율적이기 때문”이라고 설명했다.
LRM의 성능은 추론이 도움 되는 중간 난이도에서 LLM을 앞섰다. 그러나 매우 복잡한 퍼즐을 풀 땐 LRM과 LLM 모두 정확도가 0%에 가까울 정도로 떨어졌다. 애플은 LRM의 추론에 일관성이 떨어지며, 난이도가 일정 수준을 넘어가면 모델이 추론을 포기하는 경향도 보였다고 정확도가 떨어진 원인을 분석했다.
“토큰 한도 때문…실험 방식만 바꿔도 정상화”
그러나 이와 같은 애플의 연구가 설계부터 틀렸다는 지적이 나왔다. 미국의 연구기관 오픈 필랜트로피의 알렉스 로슨 연구원은 ‘사고의 환상의 환상(The Illusion of the Illusion of Thinking)’이라는 논문을 학술 논문 저장 사이트 아카이브(arxiv)에 10일 게재했다. 애플이 논문을 게재한 지 닷새만의 일이다.
해당 논문은 제목에서부터 애플의 주장이 ‘환상’이라고 지적하고 있다. LRM이나 LLM 모델이 그 자체로 한계가 있는 것이 아니라, 논문에서 로슨은 애플의 실험 도중 모델이 처리할 수 있는 최대 출력 토큰 한도에 다다라 성능이 저하된 것처럼 보였을 뿐이라고 주장했다.
클로드 3.7 소넷과 딥시크-R1의 출력 토큰 한도는 6만4000개, o3-미니는 10만개다. 하노이탑 퍼즐을 푸는 과정에서 원판을 1회 옮길 때 5토큰을 소모한다고 가정하면, 각 모델이 정상적으로 해결할 수 있는 하노이탑 최고 난이도는 클로드 3.7 소넷과 딥시크-R1이 7~8층, o3-미니 모델이 8층 정도다. 그 이상 난이도에서는 퍼즐을 제대로 풀어도 정상적인 답변 출력이 불가능하다.
로슨은 “명령어만 바꿔도 모델이 제 성능을 낼 수 있다”며 “실험 방식을 바꿔 보니 애플이 테스트한 모델 모두 5000토큰 미만의 적은 연산량으로 15층 상당의 고난이도 하노이탑 문제를 풀 수 있었다”고 주장했다.
또한 일부 퍼즐 게임은 조건이 잘못 설정돼 정답이 존재하지 않았으나, 애플은 이 경우에도 모델이 연산을 실패한 것으로 간주했다고 평가 방식에 오류가 있음을 지적했다.
로슨은 애플의 실험을 제대로 설계하기 위해서는 ▲추론 성능과 출력의 제한을 평가단에서 구별해야 하며 ▲모델 성능을 평가하기 전에 퍼즐에 정답이 존재하는지 확인할 필요가 있고 ▲추론 복잡도를 측정하는 항목을 도입하고 ▲알고리즘 이해도와 실행을 분리하기 위해 여러가지 명령어를 입력해 봐야 한다고 언급했다.
글. 바이라인네트워크
<이병찬 기자>bqudcks@byline.network