엔비디아의 블랙웰(Blackwell) 발열 문제가 해결되지 않으면서 주요 CSP(클라우드 서비스 제공업체)들이 주문량을 줄이고 있다는 주장이 나왔다.
15일 IT 전문매체 디인포메이션은 지난 13일 '엔비디아 주요 고객사, AI 칩 랙(rack·선반) 결함으로 지연 문제 직면'이라는 제목으로 엔비디아 블랙웰 랙 문제가 지속돼 고객사들이 주문을 줄이고 있다고 보도했다.
랙은 네모난 구조물에 고성능 반도체와 이를 연결하는 케이블 등 장치들을 탑재한 것이다. 데이터센터에 AI 반도체를 설치할 때 쓰인다.
주요 고객사로는 마이크로소프트(MS), 아마존, 구글, 메타 등이다. 메타와 구글은 GB200을 100억 달러어치에 해당하는 40만개를 구매했고 마이크로소프트는 6만5000개를 주문한 것으로 전해졌다.
엔비디아는 최근 GB200을 탑재한 랙을 출하하기 시작했다. GB200은 블랙웰 대표 제품인 B200 2개에 그레이스 중앙처리장치(CPU)를 붙인 제품이다.
디인포메이션은 블랙웰이 칩 연결 방식에 오류가 생겨 과열 현상이 일어나고 있다고 전했다. 이에 따라 일부 고객은 주문을 연기하거나 엔비디아 구형 AI 칩인 호퍼 구매를 고려하고 있는 것으로 전해졌다. 오픈AI는 블랙웰 랙 문제로 호퍼 칩을 제공해 달라고 마이크로소프트 측에 요청한 것으로 알려졌다.
블랙웰 발열 문제는 이번이 처음이 아니다. 작년 11월 디인포메이션은 '새로운 AI칩 서버 장애에 대한 엔비디아 고객들의 고민'이라는 제목으로 블랙웰 과열 문제를 지적했다. 8월에도 설계 결함을 이유로 엔비디아가 고객사인 마이크로소프트 등에 블랙웰 GB200 납품 연기를 통보했다고 보도했었다.
이후 젠슨 황 엔비디아 CEO는 10월 한 행사에서 "블랙웰에 설계상 결함이 있었다"고 시인하며 "블랙웰 칩셋을 작동시키기 위해 7가지 유형의 반도체를 처음부터 다시 설계했다"고 설명했다.
블랙웰에 대한 갑론을박이 난무한 가운데 시장의 의문은 내달 열리는 엔비디아 4분기 실적 설명회에서 해소될 것으로 보인다. 사안 경중에 따라 이 보다 앞서 엔비디아가 입장을 공개할 가능성도 제기된다.