작년초 출시된 AMD의 데이터센터 GPU 제품 MI300X는 인공지능(AI) 시장에서 엔비디아의 H100과 H200을 위협할 것으로 기대됐다. 그러나 지금까지 엔비디아의 아성은 여전히 공고하고, 스펙 상 성능과 가격경쟁력에서 앞선다던 AMD MI300X의 점유율은 미미하다.
AMD가 매력적인 마케팅을 하고도 AI 기업의 선택을 받지 못하는 이유는 당연히도 ‘성능 부족’ 때문이다. 서류 상의 수치와 실제 운영 시의 성능이 많이 차이난다. 이를 증명한 성능 테스트 결과가 최근 나와 주목된다.
반도체와 AI 전문 연구조사업체 세미애널리시스는 작년말 공개한 MI300X와 엔비디아 H100 및 H200 칩의 벤치마크 테스트 보고서를 발표했다.
세미애널리시스는 AMD와 엔비디아의 긴밀한 기술 지원을 받아 각 GPU별 벤치마크 테스트를 5개월 간 진행했다. 세미애널리시스는 공개된 스펙 상 MI300X가 엔비디아 H100과 H200보다 성능, 총소유비용(TCO) 등에서 앞서야 함에도 실제로는 뒤떨어진다고 밝혔다.
이 보고서는 이같은 결과의 이유로 AMD의 소프트웨어 지원 역량 부족을 꼽았다. 일반적으로 엔비디아 GPU의 해자로 학습 성능, 인피니밴드 및 이더넷 네트워킹, 쿠다(CUDA) 등이 꼽힌다. 세미애널리시스는 곳곳에 숨어있는 AMD 소프트웨어의 결함 때문에 MI300X의 스펙 상 성능을 실현하지 못하고 있다고 지적했다.
공개된 사양 명세서에 의하면, MI300X는 메모리 용량, 메모리 대역폭, 초당부동소수점연산(FLOPS) 성능에서 엔비디아의 H100과 H200을 넘어섰다.
MI300X의 HBM3 메모리 용량은 192GB이고, 대역폭은 5300GBps다. 이는 H100의 메모리 80GB, 대역폭 3352GBps은 물론이고, H200의 메모리 141GB, 대역폭 4800GBps 등보다 월등하다. 명시된 FP16과 BF16 성능에서 MI300X, H100, H200 등은 각각 1307 TFLOPS, 989 TFLOPS, 989 TFLOPS다. FP8, FP6, Int8 성능에서도 3개 GPU는 각각 2615 TFLOPS, 1979 TFLOPS, 1979 TFLOPS다. 모두 MI300X의 우위다.
MI300X는 저렴한 범용 이더넷 네트워킹을 사용하므로 TCO에서 엔비디아보다 앞선다. 동일 규모 이더넷 클러스터로 비교할 때 MI300X가 H200보다 네트워킹에서만 약 40% 저렴하다고 한다. 더 높은 사양에도 더 낮은 비용을 들일 수 있다는 점에서 사용자의 선택을 받기에 충분한 매력을 가졌다.
하지만 AMD는 작년 1분기부터 3분기까지 GPU 실적에서 실망그러운 성적을 받았다. 해당 기간동안 AMD는 GPU 실적 가이던스를 40억달러에서 50억달러로 소폭 올렸을 뿐이다.
실제 각종 벤치마크 테스트에서 MI300X는 엔비디아 제품을 앞서지 못했다. 가장 기본적인 행렬 곱셈 테스트에서 MI300X는 뒤쳐졌다. 오늘날 생성형 AI 모델의 트랜스포머 아키텍처는 일반행렬곱셈(GEMM) 성능으로 표시된다. 챗GPT, 라마, 클로드, 그롭 같은 모델이 특정 하드웨어에서 얼마나 높은 학습성능을 발휘하는 지 알 수 있다.
BF16의 경우 H100과 H200은 720 TFLOPS 성능을 기록한 반면, MI300X는 620 TFLOPS 수준이엇다. 절대적 성능에서 비교 열위일 뿐 아니라, 사양문서 목표 성능치의 절반에도 못미친다.
FP8의 경우 H100과 H200은 1280 TFLOPS 성능을 기록했지만, MI300X는 990 TFLOPS를 기록했다. 16비트와 8비트 연산에서 MI300X는 경쟁자보다 각각 14%, 22% 느렸다.
보고서는 GEMM 처리량 벤치마크 테스트 외에 워밍업 및 반복 효과 벤치마크, VBoost Power Shifting, MLPerf Training GPT-3, BF16 대 FP16 처리량, GEMM 입력 분포에 따른 처리량, FLOP당 전력, 파리토치 PyPi 분포 대 엔비디아 NGC 스테이블 파이토치 이미지에 대한 처리량 등도 실험했다.
벤치마크 테스트에 AMD는 수석엔지니어가 직접 만든 도커 이미지를 제공했다. 이 이미지는 소스 빌드에 5시간 이상 걸리고, 종속성과 하위종속성을 설치해야 한다. 엔비디아 사용자가 사전 구축된 환경에서 한줄의 코드 입력만으로 학습에 돌입하는 것에 비하면 너무 큰 경험 차이다.
AMD의 소프트웨어는 파이토치 같은 프레임워크 지원 속도에서도 엔비디아보다 느렸다. 현재 파이토치2.5가 나와 있고 1분기 중 파이토치 2.6이 나올 예정인데, AMD 도커 이미지는 아직 파이토치 2.4까지만 지원한다.
이 보고서는 “엔비디아 GPU의 아웃오브박스 성능과 사용자경험은 놀라웠고, 벤치마크 중에 특유의 버그에 부딪치지 않았다”며 “엔비디아가 기술지원을 위해 한 명의 엔지니어를 배정했지만, 소프트웨어 버그에 부딪치지 않았기에 많은 지원을 받지 않았다”고 적었다.
그리고 “AMD의 아웃오브박스 경험은 작업하기 매우 어렵고, 사용 가능한 상태로 가기까지 상당한 인내심이 필요하다”며 “대부분의 벤치마크에서 AMD 파이토치의 퍼블릭 AMD 안정화 릴리스는 여전히 문제를 일으켰고 해결 방법을 필요로 했다”고 요약했다.
그러면서 “AMD 소프트웨어에서 발견된 버그를 선별하고 수정하는 여러 AMD 엔지니어팀의 지원이 없었다면 AMD의 성과는 엔비디아보다 훨씬 낮았을 것”이라며 “MI300X 성능은 AMD 소프트웨어에 의해 제한되며, BF16 개발 브랜치의 AMD MI300X 소프트웨어는 더 좋은 성능을 내지만 AMD 내부 저장소의 메인 브랜치에 병합되지 않았다”고 지적했다.
훈련 성능에서도 AMD MI300X는 강력한 스케일아웃 성능을 제공하지 못해 제한적이었다. ‘ROCm 컴퓨트 커뮤니케이션 라이브러리(RCCL)’와 네트워킹 및 스위칭 하드웨어의 수직 통합 수준이 ‘엔비디아 콜렉티브 커뮤니케이션 라이브러리(NCCL)’와 인피니밴드/스펙트럼X 패브릭 간 통합보다 낮기 때문으로 설명됐다.
또 AMD AI 라이브러리 다수는 엔비디아 AI 라이브러리의 포크 버전이다. 경쟁사의 소프트웨어를 변환해 구축하는 형태기에 최적화에서 한계를 드러내고 호환성 문제를 초래한다.
세미애널리시스는 AMD에게 소프트웨어 생태계를 수정하고 개선할 수 있는 컴퓨팅 자원을 사내 엔지니어팀에게 더 풍부히 제공하고, 내부적인 소프트웨어 품질 테스트를 대폭 강화해야한다고 조언했다.
최종사용자의 시간을 소모하도록 하는 사용자 경험 부족도 지적했다. MI300X를 실제로 사용할 수 있게 하려면 환경 플래그가 너무 많다는 것이다. 사용자가 직접 환경 플래그를 설정해야 하고, 플래그 간 복잡한 상호 작용 때문에 문제 해결도 어렵다고 강조했다.
일례로 AMD MI300X을 통한 모델 학습이 제대로 작동하려면 최종사용자가 GEMM을 튜닝할 수 있는 AMD 특정 프로토타입 플래그를 사용해야 한다. 이는 안정적이지 않아서 수많은 버그를 안고 있고, 각종 버그를 해결하고 나서도 최신 LLM 조정에 최대 2시간을 들여야 한다. 만약 최종 사용자 코드에 약간의 변동이 있으면 또 1~2시간을 조정해야 한다.
반면, 엔비디아는 GEMM 라이브러리를 기본적으로 조정해 제공하고, 휴리스틱 모델이 H100/H200에 대해 올바른 알고리즘을 선택하기 때문에 별도의 커스텀 플래그가 필요없다.
보고서는 AMD의 사용자 경험은 최종제품에 대한 내부 테스트(도그푸딩) 부족에서 기인한다고 지적했다. AMD가 매일 20만개 이상의 테스트를 내부에서 테스트한다고 밝히지만, 실제 소프트웨어 버그 개선에 큰 도움을 주지 못하는 듯 하다고 했다. AMD가 적절한 CI/CD 테스트를 수행하지 못하고 있다고 추정했다.
또한 고객에게 맞춤형 이미지를 제공하는 식으로 대응하는 AMD의 방식을 지적하고, 대중에게 제공되는 이미지의 표준을 높여야 한다고 조언했다.
AMD는 지난해 10월 차세대 GPU 제품인 MI325X를 공개했다. MI300X가 H100을 겨냥했다면, MI325X는 블랙웰 제품군을 겨냥한다. 새 제품도 경쟁작을 서류 상 앞서지만, AI 소프트웨어 경쟁력이 얼마나 획기적으로 개선될 지 아직은 불투명하게 보인다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network