"딥시크, 챗GPT로 학습"…오픈AI는 속수무책

딥시크가 선보인 추론 모델 R1은 사람 대신 인공지능(AI) 간 강화학습(RL)으로 성능을 끌어올리는 데 성공했다. 테크계는 R1의 ‘선생님’이 오픈AI의 추론 모델 o1일 것으로 본다. 오픈AI와 최대 투자사 마이크로소프트(MS)는 ‘약관 위반’이라며 반발하고 있지만 원천적으로 차단할 방법은 없다. 최선단 AI와 후발 주자 간 ‘기술장벽’이 사라지며 막대한 AI 모델 개발비에 대한 회의도 증폭하는 분위기다.

29일(현지 시간) 월스트리트저널(WSJ)은 오픈AI와 MS가 딥시크의 데이터 무단 획득에 관한 조사에 착수했다고 보도했다. MS 보안 관련 인력들이 지난해 가을 딥시크로 보이는 사용자가 오픈AI에서 대량의 데이터를 받아가 지식 증류(Distillation)를 시도한 정황을 포착했다고 한다. 오픈AI는 “중국 기업들이 주요 미국 AI 모델을 증류하려고 지속적으로 노력하고 있다”고 밝혔다.

‘증류’는 AI가 생성한 데이터를 통해 AI를 학습시키는 기술을 뜻한다. 데이터 고갈 문제 해결을 위해 고안됐고 오픈AI o1을 비롯한 최신 추론 모델들 또한 증류 과정을 거쳐 학습된 것으로 알려져 있다. 오픈AI를 비롯한 대다수 AI 개발사들은 약관상 경쟁 기술 개발에 자사 데이터를 사용하지 못하도록 한다.

하지만 이는 암암리에 대다수 개발사들이 사용 중인 방법이다. 구글 딥마인드도 이달 5일 추론 AI를 활용한 증류가 AI 성능 향상에 효과적이라는 논문을 공개했다. 테크계의 한 관계자는 “약관을 걸고넘어진다면 오픈AI 역시 자유롭지 못할 것”이라며 “모든 업체들이 증류를 시도하지만 딥시크처럼 극단적으로 저렴한 비용으로 높은 성과를 내지는 못했다”고 지적했다.

AI의 ‘말’과 사람의 언어를 구분하기 힘들어진 현 상황에서 증류 시도를 막을 길은 없다는 분석이 지배적이다. 소송을 진행한다 해도 정부의 비호를 받는 중국 기업들과의 싸움에서 승소를 보장할 수 없고 기술 격차를 따라 잡힌 뒤에나 소송 결과를 받아들 가능성이 높다. 이런 배경에서 업계에서는 챗GPT 등 초대형 AI 투자가 줄어들 것이라는 관측을 조심스럽게 내놓는다.

기댈 곳은 미국 정부의 외교적 압박뿐이다. 도널드 트럼프 행정부의 AI·가상자산 정책 ‘차르’로 임명된 데이비드 색스는 28일 폭스뉴스와의 인터뷰에서 딥시크가 미국 지식재산을 훔쳤는지 묻는 질문에 “가능하다”고 답했다. 오픈AI는 “적과 경쟁자가 가장 강력한 미국 기술을 탈취하려는 노력을 막기 위해 미국 정부와 긴밀히 협력하는 것이 매우 중요하다”고 했다.