"딥시크가 원자폭탄이라면 큐원은 10~20배 강한 수소폭탄"

[블록체인투데이 장명관 기자] 중국 인공지능(AI) 스타트업 딥시크(DeepSeek)가 개발한 생성형 AI 딥시크(deepseek) 충격이 가시기 전에 딥시크보다 훨씬 강한 ‘큐원’이 다시 미국과 전세계에 더 큰 충격을 주고 있다. 40년간 AI를 연구한 한국AI교육협회 회장인 문형남 숙명여대 글로벌융합대학 학장은 “딥시크는 원자폭탄, 큐원은 원자폭탄보다 10~20배 강한 수소폭탄에 비유할 수 있다.”고 말한다. 딥시크는 중국의 신생 스타트업 딥시크가 개발한 ‘딥시크(deepseek) V3’를 말하고, 큐원은 중국의 빅테크 대기업 알리바바 클라우드가 개발한 '큐원(Qwen) 2.5-맥스'를 말한다.

딥시크는 클로드 3.5와 GPT 4o 등 비교 대상 다른 12개 모든 AI 모델보다 성능이 우수하고 가성비(성능/가격)도 가장 좋다는 테스트 결과를 발표했다(그림1 참조), 중국 거대 빅테크기업 알리바바는 최근 관심을 끈 중국 AI 모델 딥시크를 능가하는 모델을 개발했다는 주장을 내놨다. 알리바바그룹의 알리바바 클라우드는 중국 춘제 당일인 1월 29일 소셜미디어 공식 계정을 통해 새로운 AI 모델 '큐원(Qwen) 2.5-맥스'를 출시했다고 밝혔다. 알리바바 클라우드는 "큐원 2.5-맥스 모델의 사전 훈련 데이터는 20조개의 토큰을 넘는다"며 "오픈AI의 GPT-4o, 딥시크-V3, 메타의 라마(LLaMA)-3.1-405B 등을 거의 모든 비교 영역에서 능가한다"고 주장했다.

딥시크가 공개한 성능 평가 자료에 의하면(그림 1), DeepSeek-V2.5는 Claude 3.5 Sonnet, GPT-4, Gemini 1.5 Pro, Qwen3.5-72B-Instruct, Llama-3.1-70B-Instruct, Claude 3.5, Haiku, GPT-4e mini, ERNIB 4.0 Turbo, GLM-4-Plus, Mistral Large 2411 등 모든 비교 대상을 제치고 1위를 한 것으로 나타났다. 그림의 X축은 "MMLU/Redux ZeroEval Score VS Input API Price ($/1M Tokens)"으로, API 사용 비용을 나타낸다. Y축은 성능 점수를 나타내며, 평가 대상 모든 AI가 약 78-86 정도의 범위를 보여준다.

한편 큐원이 공개한 성능 평가 자료에 의하면(그림 2), 5가지 벤치마크 테스트에서 Qwen 2.5-Max가 1위를, DeepSeek-V3가 2위를 기롤하면서 LLM 경쟁에서 강력한 성능을 보이고 있는 것으로 나타났다. 이같은 내용은 미국의 AI 뉴스 등 여러 언론이 인용 보도하고 있다. 이 테스트는 여러 대형언어모델(LLM)의 성능을 다양한 벤치마크에서 비교한 것이다. 각 모델이 여러 테스트에서 얼마나 높은 점수를 기록했는지 나타내고 있다.

큐원을 개발하고 서비스를 제공하는 알리바바 클라우드는 "큐원이 5가지 테스트에서 GPT·딥시크·라마·클로드 등 4개 경쟁 모델을 능가한다."고 주장한다. 그래프의 X축은 벤치마크 테스트 종류(Arena-Hard, MMLU-Pro, GPQA-Diamond, LiveCodeBench, LiveBench)를, Y축은 성능 점수(0~100)를 나타낸다. 각 막대 그래프는 좌측부터 빨간색은 Qwen 2.5-Max, 파란색은 DeepSeek-V3, 회색은 Llama-3-140B Inst, 노란색은 GPT-4o-0806, 베이지색은 Claude-3.5-Sonnet-1022를 나타낸다.

각 벤치마크에서의 성능을 비교해보면 다음과 같다. 첫째, Arena-Hard(난이도 높은 종합 테스트)에서는 Qwen 2.5-Max가 89.4로 가장 높은 점수를 기록했고, DeepSeek-V3가 85.5로 2위, Claude-3.5-Sonnet-1022는 85.2로 3위, GPT-4o는 77.94위, Llama-3-140B Inst는 69.3로 5위를 기록했다. 둘째, MMLU-Pro(일반적인 지식 테스트)에서는 5개 AI가 비슷한 수준을 나타냈다. Qwen2.5-Max이 76.1로 가장 높고, DeepSeek-V3가 75.9로 2위를 기록했다.

딥시크와 큐원이 발표한 성능 평가자료는 자사가 발표한 것이라 추가 검증이 필요하지만, 미국의 주요 언론과 전문가들은 발표자료를 인정하는 분위기다. 딥시크와 큐원의 성능은 좋은 것으로 판단되지만 개인정보 보호 등의 문제가 있어서 논란이 되고 있다. 세계 AI 업계에 충격을 안긴 중국판 AI '딥시크'가 중국 당국이 민감한 내용을 검열한다는 논란이 커지고 있다. 보안을 우려한 미국 해군 등 일부 정부기관에서는 사용 금지 조치를 내렸다. 또한 딥시크의 데이터 도용과 오픈AI 기술과 도용 문제도 논란이 되고 있다. 큐원도 딥시크과 비슷한 문제로 논란이 될 수 있다. 미국 AI 업계와 의회는 딥시크가 데이터를 무단으로 수집한 건 아닌지 조사에 들어갔다. 한편 딥시크는 오픈소스로 출시했으며, 큐원은 영어기반 수학전용 모델 ‘큐원2-매스’ 시리즈를 오픈 소스로 출시했다. 딥시크와 큐원은 오픈소스라는 장점을 갖고 있다.

중국 AI 스타트업 딥시크와 알리바바의 큐원의 반격에 AI 최강국 미국이 초비상이다. 반도체·데이터·투자 규제에 이어 미·중 AI 협력 차단 법안까지 발의하며 압박을 키우고 있다. 이 가운데 중국도 리창 총리가 딥시크 설립자를 직접 만나 기술 자립 방안을 논의하는 등 미중 간의 AI 전쟁이 본격화하고 있다. 앞으로 미중 AI 패권 경쟁은 더욱 심해질 것으로 예상된다. 미국은 동맹국들과의 협력을 통해 기술 통제를 강화하는 한편, 대규모 투자를 통해 기술 격차를 확대하려 할 것이다. 중국은 자체 기술 개발과 함께 비용 효율성을 내세워 이러한 격차를 극복하려 할 것으로 예상된다. 미중 간의 AI 전쟁은 미래 기술 패권을 차지하기 위한 중요한 경쟁이며, 양국은 각자의 강점을 바탕으로 서로 경쟁하며 발전해 나갈 것이다. 이는 글로벌 AI 산업의 발전 방향과 국제 관계에 광범위한 영향을 미칠 것으로 예상된다.

AI융합연구소 소장인 문형남 숙명여대 글로벌융합학부 교수는 “미국은 중국 AI의 미국 점령을 막으려고 노력하지만, 짧은 기간에 딥시크 앱이 오픈AI의 챗GPT를 제치고 미국서 다운로드 1위 한 것을 봐서는 개인의 사용을 막기는 어려울 것이다. 미중 AI 전쟁은 한국 기업들에게도 큰 영향을 미친다. 한국 기업들은 자사의 전략을 수정하여 미중 AI 전쟁에 대처해야 한다. 예를 들어, 중국 시장 진출을 고려하는 경우, 미국의 제재를 고려하여 신중한 결정을 내려야 한다. 미중 AI 전쟁은 개인의 선택에도 영향을 미칩니다. 개인은 자신의 가치관과 선호에 따라 미중 양국의 AI 기술을 선택할 수 있습니다. 하지만, 미중 AI 전쟁이 심화되면서 개인의 선택이 제한될 수 있으므로, 상황 변화에 대한 지속적인 관심과 대처가 필요하다.”고 강조한다.

info@blockchaintoday.co.kr