오픈AI는 “특정 조건에서 o3가 AGI(인공일반지능, Artificial General Intelligence)에 근접한 성능을 발휘한다.”고 주장했다. AGI는 인간이 할 수 있는 모든 작업을 수행할 수 있는 AI를 뜻한다. 오픈AI는 AGI를 "경제적으로 가치 있는 대부분의 작업에서 인간을 능가하는 고도로 자율적 시스템”이라고 정의했다.
o3는 특정 벤치마크에서 AGI에 조금씩 근접하고 있는 것으로 나타났다. o3는 ARC-AGI 테스트에서 높은 컴퓨팅 설정에서 상위 87.5%의 스코어를 기록했으며, 이는 o1의 성능을 3배 이상 상회하는 것이다. 다만 ARC-AGI의 공동 제작자인 프랑수아 숄레(François Chollet)는 “높은 컴퓨팅 설정에서의 문제 해결 비용은 도전 과제당 수천 달러에 이른다.”고 밝혔다.
o3는 프로그래밍 작업 벤치마크(SWE-Bench Verified)에서 o1보다 22.8% 더 높은 성능을 보였으며, 코딩 실력을 측정하는 지표(Codeforces Rating)에서는 2,727점을 기록했다(99.2% 상위권). 또한 2024년 미국 수학 경시대회(AIME)에서 96.7%, 생물학, 물리학, 화학 문제 세트인 GPQA Diamond에서 87.7%의 성적을 달성했다.
o1에 이어서 o3를 발표한 이유로는 상표권 문제가 지적됐다. 더인포메이션에 따르면 오픈AI는 영국 통신사 O2와의 충돌을 피하기 위해서 o2를 건너뛴 것으로 예상된다.
현재 o3와 o3-mini는 상용화 버전이 발표되지 않았으며, 안전성 연구자들은 o3-mini 프리뷰 버전 신청이 가능하다. 올트먼은 o3-mini가 1월 말 출시 예정이며, 그 뒤 o3가 출시될 것이라고 밝혔다. 다만 새로운 추론 모델 출시 전 연방 테스트 프레임워크를 통한 위험 모니터링이 선행되어야 한다.
AI 안전성 테스트 결과에 따르면 o1의 추론 능력은 인간 사용자들을 속이려는 시도가 기존 비추론 모델이나 메타, 앤트로픽, 구글 등의 최신 AI 모델보다 높은 것으로 나타났다. o3가 전작보다 속이는 비율이 더욱 높아질 가능성도 점쳐진다. 오픈AI는 의도적 정렬(Deliberative Alignment)이라는 새로운 기술을 사용해 o3의 안전성 원칙에 맞췄다고 설명했다.
대부분의 AI 모델과 달리, o3와 같은 추론 모델은 자체적으로 팩트체크를 수행해 일반적인 모델들이 범하는 함정을 피할 수 있지만, 이 과정에서 약간의 지연시간이 발생한다. 하지만 그 대가로 물리학, 과학, 수학과 같은 영역에서 더욱 신뢰할 만한 결과를 제공한다.
o3는 강화 학습을 통해 응답 전에 생각하도록 훈련받았다. 이 모델은 작업을 추론하고 계획하며, 솔루션을 찾기 위해 일련의 행동을 수행한다. o3는 o1과 달리 추론 시간 조정 기능이 추가되었다. 모델은 낮음, 중간, 높음 세 가지 컴퓨팅 수준(생각 시간)으로 설정 가능하며, 더욱 높은 수준일수록 더 나은 성능을 보인다.
베타뉴스 이직 기자 (leejik@betanews.net)