테크크런치가 20일(현지 시간)에 보도한 내용에 따르면, 중국의 인공지능 연구소 딥시크(DeepSeek)가 자사의 추론 AI 모델 '딥시크-R1(DeepSeek-R1)'을 공개했다. 이 모델은 특정 AI 벤치마크에서 오픈AI(OpenAI)의 O1 모델을 능가하는 성능을 보였다고 회사 측은 밝혔다.
벤치마크 테스트서 O1 모델 압도
테크크런치에 따르면, R1은 AI 개발 플랫폼 허깅페이스(Hugging Face)를 통해 MIT 라이선스로 공개됐다. 딥시크는 R1이 AIME, MATH-500, SWE-bench Verified 등 주요 벤치마크에서 O1을 앞섰다고 주장했다. AIME는 다른 모델들을 활용해 모델의 성능을 평가하는 방식이며, MATH-500은 수학 문제 모음, SWE-bench Verified는 프로그래밍 과제에 중점을 둔 평가 지표다.
자체 검증 시스템으로 정확도 높여
R1은 추론 모델로서 스스로 사실 관계를 검증하는 능력이 있어 일반적인 AI 모델들이 겪는 실수를 피할 수 있다. 추론 모델은 일반 모델보다 몇 초에서 몇 분 더 긴 처리 시간이 필요하지만, 물리학과 과학, 수학 분야에서 더 신뢰할 만한 결과를 도출한다.
중국 정부 규제로 인한 제약 존재
그러나 R1은 중국 모델이라는 한계가 있다. 중국 인터넷 규제 당국의 심사를 거쳐야 하며 '핵심 사회주의 가치관'을 반영해야 한다. 천안문 사태나 대만의 자치권과 같은 주제에 대해서는 답변하지 않는다.
이번 R1 출시는 바이든 행정부가 중국 기업들에 대한 AI 기술 수출 규제를 강화하려는 시점과 맞물렸다. 오픈AI는 지난주 정책 문서를 통해 미국 정부에 자국 AI 개발 지원을 촉구했으며, 특히 딥시크의 모회사인 하이플라이어 캐피털 매니지먼트(High Flyer Capital Management)를 우려 대상으로 지목했다.
현재까지 딥시크를 포함해 알리바바(Alibaba)와 키미(Kimi) 등 세 곳의 중국 연구소가 O1과 견줄 만한 모델을 개발했다고 주장하고 있다. 조지메이슨대학교(George Mason University)의 AI 연구원 딘 볼(Dean Ball)은 이러한 추세가 중국 AI 연구소들의 '빠른 추격자' 전략을 보여준다고 분석했다.
해당 기사의 원문은 테크크런치에서 확인할 수 있다.
이미지출처: 딥시크
기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다.