AWS, 딥러닝 및 생성형 AI를 위한 트레이니움2 인스턴스 출시

2024-12-04

아마존웹서비스(Amazon Web Services, 이하 AWS)는 오늘 AWS 리인벤트(re:Invent)에서 AWS 트레이니움2(AWS Trainium2) 칩 기반의 아마존 EC2(Amazon EC2) 인스턴스를 공식 출시했다고 발표했다. 또한, AWS는 거대언어모델(LLM) 및 파운데이션 모델(FM)의 학습과 추론을 지원하는 트레이니움2 울트라서버(Trn2 UltraServers)와 차세대 트레이니움3(Trainium3) 칩도 함께 공개했다.

 아마존 EC2 Trn2 인스턴스(Amazon EC2 Trn2 Instances, 이하 Trn2 인스턴스)는 16개의 트레이니움2 칩을 탑재하여 최대 20.8 페타플롭스(PF)의 연산 성능을 제공한다. 이는 수십억 개의 매개변수를 가진 LLM의 학습 및 배포에 적합하다. Trn2 인스턴스는 동일한 비용으로 기존 GPU 기반 EC2 P5e 및 P5en 인스턴스 대비 30~40% 더 나은 가격 대비 성능을 제공하며, 메모리 대역폭도 크게 개선되어 비용 효율성이 뛰어나다.

 아마존 EC2 Trn2 울트라서버(Amazon EC2 Trn2 UltraServer, 이하 Trn2 울트라서버)는 완전히 새로운 EC2 제품군으로, 초고속 뉴런링크(NeuronLink) 기술을 사용해 64개의 트레이니움2 칩을 연결하여 최대 83.2 피크 페타플롭스의 연산 성능을 제공한다. 이는 단일 Trn2 인스턴스 대비 연산, 메모리, 네트워킹 성능을 각각 4배로 확장해 세계 최대 규모의 모델 학습과 배포를 가능하게 한다.

 AWS는 앤스로픽(Anthropic)과 협력해 수십만 개의 트레이니움2 칩을 포함하는 EC2 울트라클러스터(UltraClusters)를 구축하고 있다. 이 프로젝트는 ‘프로젝트 레이니어(Project Rainier)’로 명명되었으며, 현재 세대의 최첨단 AI 모델 훈련에 사용된 엑사플롭스의 5배 이상의 성능을 갖출 것으로 기대된다.

 AWS는 차세대 AI 학습 칩인 트레이니움3를 공개했다. 트레이니움3는 트레이니움2 대비 최대 2배 성능과 40% 개선된 에너지 효율성을 제공하며, 이를 통해 고객은 더 큰 모델을 더 빠르게 구축하고 실시간 성능을 극대화할 수 있다.

데이비드 브라운(David Brown) AWS 컴퓨팅 및 네트워킹 부문 부사장은 "트레이니움2는 AWS가 개발한 칩 중 가장 강력한 성능을 자랑하며, 대규모 및 최첨단 생성형 AI 워크로드를 지원하기 위해 설계되었다. 이 칩은 학습과 추론 모두에서 최고의 가격 대비 성능을 제공한다"며, "매개변수가 수조 개에 달하는 모델이 등장하면서, 고객들에게 대규모 모델을 효율적으로 학습하고 운영할 수 있는 새로운 접근 방식이 필요해졌다. Trn2 울트라서버는 AWS에서 가장 빠른 학습 및 추론 성능을 제공하며, 모든 규모의 조직이 세계 최대 모델을 더 빠르고 비용 효율적으로 학습하고 배포할 수 있도록 돕는다."

모델의 규모가 커짐에 따라, 고객들은 학습 시간을 단축하고 추론 지연 시간을 줄이기 위해 컴퓨팅 및 네트워킹 인프라의 한계에 도전하고 있다. AWS는 이미 GPU 및 머신러닝(이하 ML) 칩 기반 인스턴스를 포함한 가장 광범위하고 심층적인 AI/ML용 가속화 EC2 인스턴스를 제공하고 있다. 그러나 현재 시점에서 가장 빠른 가속화 인스턴스에도 불구하고, 고객들은 더욱 정교해진 모델을 더 낮은 비용에 더 빠르게 학습하고 운영할 수 있는 성능과 확장성을 요구하고 있다. 모델이 복잡해지고 데이터 양이 증가함에 따라 클러스터 크기만 단순히 늘리는 것은 병렬 처리의 한계로 인해 훈련 속도를 높이는 데 한계가 있다. 동시에, 실시간 추론에 대한 요구는 단일 인스턴스 아키텍처의 성능 한계를 넘어서는 상황이다.

딥러닝과 생성형 AI를 위한 아마존 EC2 인스턴스 중 최고 성능을 자랑하는 트레이니움2

AWS의 Trn2 인스턴스는 기존 GPU 기반 EC2 인스턴스 대비 30~40% 뛰어난 가격 대비 성능을 제공한다. 단일 Trn2 인스턴스는 16개의 트레이니움2 칩을 초고속 뉴런링크(NeuronLink) 기술로 연결해 20.8 피크 페타플롭스의 연산 성능을 제공하며, 이는 수십억 개의 매개변수를 가진 대규모 모델의 학습 및 배포에 최적화되어 있다.

점점 까다로워지는 대규모 모델의 AI 컴퓨팅 요구를 충족하는 Trn2 울트라서버

더 많은 컴퓨팅 능력이 필요한 대규모 모델의 경우, Trn2 울트라서버는 단일 Trn2 인스턴스의 한계를 넘어 학습 규모를 확장함으로써 학습 시간을 단축하고, 제품 출시 속도를 가속화하며, 모델 정확도를 개선하기 위한 신속한 반복을 가능하게 한다. Trn2 울트라서버는 초고속 뉴런링크를 사용해 4개의 Trn2 서버를 하나의 대형 서버로 묶어, 64개의 트레이니움2 칩을 통해 생성형 AI 워크로드를 확장할 수 있다. 추론 워크로드의 경우, 고객은 Trn2 울트라서버를 사용해 운영 환경에서 수조 개의 매개변수를 가진 모델의 실시간 추론 성능을 개선할 수 있다.

AWS는 앤스로픽과 협력해 '프로젝트 레이니어(Project Rainier)'로 명명된 EC2 울트라클러스터를 구축하고 있다. 이 클러스터는 수십만 개의 트레이니움2 칩을 포함하며, 3세대 저지연 페타비트(Petabit) 규모의 AWS 엘라스틱 패브릭 어댑터(EFA) 네트워킹을 통해 분산 모델 학습을 확장하며, 현재 세대 AI 모델 훈련에 사용된 엑사플롭스의 5배 이상 성능을 제공할 것으로 기대된다.

앤스로픽은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 연구하는 기업으로, 앤스로픽의 대표 제품은 전 세계 수백만 사용자들이 신뢰하는 LLM(거대언어모델)인 클로드(Claude)다. AWS와의 협력을 통해 클로드 모델을 트레이니움2에 최적화하고 있으며, 트레이니움2는 현재까지 AWS에서 가장 진보된 AI 하드웨어다. 또한, 앤스로픽은 이전 클러스터의 5배가 넘는 수십만 개의 트레이니움2 칩을 사용하여 아마존 베드록에서 클로드를 사용하는 고객에게 최상의 성능을 제공할 계획이다.

데이터브릭스(Databricks)의 모자이크(Mosaic) AI는 기업이 고품질 에이전트 시스템을 구축하고 배포할 수 있도록 지원한다. 데이터 레이크하우스를 기반으로 구축되어 고객이 기업 데이터를 기반으로 모델을 보다 안전하게 설정하고 도메인에 특화된 출력을 제공할 수 있도록 지원한다. 트레이니움의 높은 성능과 비용 효율성 덕분에 고객은 낮은 비용으로 모자이크 AI 모델의 학습을 확장할 수 있다. 전 세계적으로 모든 고객 부문에서 모자이크 AI에 대한 수요가 계속 확대되고 있는 상황에서 트레이니움2의 출시는 데이터브릭스 및 고객들에게 큰 혜택이 될 것이다. 세계 최대 데이터 및 AI 기업 중 하나인 데이터브릭스는 트레이니움2를 활용해 고객에게 더 나은 결과를 제공하고 총 소유 비용(TCO)을 최대 30% 낮출 계획이다.

허깅페이스(Hugging Face)는 5백만 명 이상의 연구자, 데이터 과학자, 머신러닝 엔지니어, 소프트웨어 개발자로 구성된 커뮤니티로, 2백만 개 이상의 모델, 데이터셋, AI 애플리케이션을 공유하는 AI 빌더를 위한 선도적인 플랫폼이다. 허깅페이스는 지난 몇 년간 AWS와의 협력해 옵티멈 뉴런(Optimum Neuron) 오픈소스 라이브러리를 통해 개발자들이 AWS 인퍼런시아(AWS Inferentia)와 트레이니움의 성능 및 비용 효율을 쉽게 경험할 수 있도록 했다. 현재는 AWS 마켓플레이스에서 제공되는 HUGS 자체 배포 서비스에도 최적화되어 있다. 트레이니움2 출시로 허깅페이스 사용자들은 더욱 향상된 성능으로 모델을 빠르게 개발하고 배포할 수 있게 됐다.

풀사이드(Poolside)는 AI가 경제적으로 가치 있는 일과 과학적 진보를 주도하는 세상을 만드는 것을 목표로 하고 있다. 이들은 소프트웨어 개발이 인간 수준의 지능을 구현하는 신경망의 첫 번째 주요 단계가 될 것이라고 믿고 있다. 이를 실현하기 위해 개발자들이 생성형 AI를 활용할 수 있도록 기초 모델, API, 어시스턴트를 구축하고 있다. 해당 기술을 구현하기 위한 핵심은 제품을 구축하고 실행하는 데 사용하는 인프라다. 풀사이드의 고객들은 AWS 트레이니움2를 활용해 다른 AI 액셀러레이터와는 차별화된 가격 대비 성능으로 워크로드를 확장할 수 있다. 또한, 풀사이드는 Trn2 울트라서버로 향후 모델을 학습할 계획이며, EC2 P5 인스턴스 대비 40%의 비용을 절감할 수 있을 것으로 기대하고 있다.

트레이니움3 칩: 차세대 생성형 AI 워크로드의 고성능 요구를 충족하도록 설계된 제품

AWS는 차세대 AI 학습 칩인 트레이니움3를 공개했다. 트레이니움3는 3나노미터 공정 노드로 제작된 최초의 AWS 칩으로 성능, 전력 효율성, 밀도에 대한 새로운 기준을 제시할 것으로 예상된다. 트레이니움3 기반 울트라서버는 Trn2 울트라서버 대비 4배 더 높은 성능을 제공할 것으로 예상되며, 이를 통해 고객은 모델 구축 시 더욱 빠르게 반복하고 배포 시 우수한 실시간 성능을 제공할 수 있다. 최초의 트레이니움3 기반 인스턴스는 2025년 말 출시될 예정이다.

AWS 뉴런(AWS Neuron) 소프트웨어를 통해 트레이니움2의 성능을 극대화할 수 있도록 지원

뉴런 SDK(Neuron SDK)는 트레이니움 칩에서 모델을 실행할 수 있도록 최적화하는 컴파일러, 런타임 라이브러리, 도구를 제공한다. 이를 통해 개발자는 모델을 최적화하여 트레이니움 칩에서 최적의 성능을 발휘할 수 있다. 뉴런은 기본적으로 쟉스(JAX)와 파이토치(PyTorch)와 같은 인기 프레임워크와 통합되어 있어 고객이 기존 코드와 워크플로우를 최소한의 코드 변경으로 트레이니움에서 계속 사용할 수 있다. 뉴런은 또한 허깅페이스 모델 허브의 10만 개 이상의 모델을 지원한다. 뉴런 커널 인터페이스(NKI)를 통해 개발자는 베어메탈 트레이니움 칩에 접근할 수 있어, 까다로운 워크로드의 성능을 극대화할 수 있는 컴퓨팅 커널을 작성할 수 있다.

뉴런 소프트웨어는 최소한의 코드 변경으로 공급업체별 솔루션에 종속되지 않고도 쟉스와 같은 인기 있는 프레임워크를 사용하여 트레이니움2에서 모델을 쉽게 학습하고 배포할 수 있다. 구글(Google)은 네이티브 OpenXLA 통합을 통해 고객이 대규모 학습 및 추론에 쟉스를 사용할 수 있도록 지원하여 사용자가 Trn2 인스턴스를 빠르게 시작할 수 있는 쉽고 이식 가능한 코딩 경로를 제공한다. 업계 전반의 오픈 소스 협업과 트레이니움2의 출시로 구글은 ML 커뮤니티 전반에서 쟉스의 채택이 증가할 것으로 예상하며, 이는 전체 ML 생태계에 중요한 이정표가 될 것으로 보인다.

Trn2 인스턴스는 현재 미국 동부(오하이오) AWS 리전에서 사용 가능하며, 추가 리전에서도 곧 제공될 예정이다. Trn2 울트라서버는 현재 프리뷰 상태로 제공되고 있다.

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.