아마존웹서비스(Amazon Web Services, 이하 AWS)는 오늘 AWS 리인벤트(re:Invent)에서 차세대 인공지능(AI) 혁신과 고객의 진화하는 요구를 지원하기 위해 설계된 새로운 데이터센터 구성요소를 발표했다. 이러한 기능은 더 많은 고객 혁신을 뒷받침할 수 있도록 보다 에너지 효율적인 데이터센터 구축을 위해 전력, 냉각, 하드웨어 설계의 혁신을 결합한다. 이러한 새로운 기능들은 AWS의 새로운 데이터센터에 전 세계적으로 구현될 예정이며, 많은 구성요소들이 이미 기존 데이터센터에 배포되어 있다.
프라사드 칼야나라만(Prasad Kalyanaraman) AWS 인프라 서비스 부문 부사장은 "AWS는 전 세계 고객을 위한 가장 성능과 복원력이 뛰어나고, 안전하고 지속 가능한 클라우드를 구축하기 위해 끊임없이 인프라를 혁신하고 있다"며 "이러한 데이터센터 기능은 에너지 효율성이 향상되고 새로운 워크로드를 유연하게 지원한다는 점에서 중요한 진전을 의미한다. 하지만 더욱 흥미로운 점은 이러한 기능들이 모듈식으로 설계되어 기존 인프라를 액체 냉각 및 에너지 효율성을 위해 개조할 수 있어 생성형 AI 애플리케이션을 지원하고 탄소 발자국을 줄일 수 있다는 것"이라고 말했다.
AWS는 18년 동안 대규모 데이터센터를 구축해왔으며, 13년 동안 AI 워크로드를 위한 GPU 기반 서버를 구축해왔다. 현재 AWS 데이터센터는 AWS 인공지능(AI) 및 머신러닝(ML) 서비스를 사용하는 수십만의 고객과 아마존 베드록(Amazon Bedrock)을 사용해 생성형 AI 애플리케이션을 구축하는 수만의 고객을 포함해 전 세계적으로 수백만의 활성 고객을 지원하고 있다. 생성형 AI의 사용이 계속 증가하고 GPU 용량 수요가 증가함에 따라 AWS 데이터센터는 점점 더 높아지는 전력 밀도를 지원할 수 있도록 적응하고 있다. 주요 개선 사항은 다음과 같다.
1. 고가용성을 위한 간소화된 전기 및 기계 설계
AWS는 고객에게 가장 신뢰할 수 있는 인프라를 제공하는 데 지속적으로 초점을 맞추고 있다. 간소화된 전기 및 기계 설계는 더욱 신뢰할 수 있고 유지 관리가 용이하여, 고객들이 AWS가 처음부터 제공해온 높은 신뢰성의 이점을 누릴 수 있도록 한다.
AWS의 최신 데이터센터 설계 개선 사항에는 간소화된 전기 배전 및 기계 시스템이 포함되어 있어 99.9999%의 인프라 가용성을 실현한다. 또한 간소화된 시스템은 전기 관련 문제로 영향을 받을 수 있는 잠재적 랙의 수를 89% 줄일 수 있다.
데이터센터에서 전기는 IT 장비에 도달하기 전에 여러 변환 및 배전 시스템을 거친다. 각 단계마다 비효율성과 에너지 손실, 잠재적 장애 지점이 자연스럽게 발생한다. 새로운 설계의 예로, AWS는 배전을 간소화하여 잠재적 장애 지점의 수를 20% 줄였다. 다른 단순화 사례로는 백업 전원을 랙에 더 가깝게 배치하고 뜨거운 공기를 배출하는 데 사용되는 팬의 수를 줄이는 것이 있다. AWS는 자연적인 압력차를 활용하여 뜨거운 공기를 배출하며, 이는 서버에서 사용할 수 있는 전기량을 개선한다. 이러한 모든 변화는 장애 위험을 최소화하면서 전체적인 에너지 소비를 줄이는 데 도움이 된다.
2. 냉각, 랙 설계, 제어 시스템의 혁신
AWS는 고객에게 가능한 한 가장 성능이 뛰어나고, 가용성이 높으며, 에너지 효율적인 인프라를 제공하기 위해 다수의 새롭고 향상된 기능을 구축했다. 새로운 데이터센터에 도입된 주요 혁신은 다음과 같다.
액체 냉각: 최신 AI 서버는 고밀도 컴퓨팅 칩을 더욱 효율적으로 냉각하기 위해 액체 냉각의 이점을 활용한다. AWS는 새로운 데이터센터와 기존 데이터센터 모두에서 구성 가능한 액체-칩(liquid-to-chip) 냉각을 제공하는 새로운 기계식 냉각 솔루션을 개발했다. 일부 AWS 기술은 액체 냉각이 필요하지 않은 네트워크 및 스토리지 인프라를 활용하므로, 업데이트된 냉각 시스템은 AWS 트레이니움2(AWS Trainium2)와 같은 가장 강력한 AI 칩셋은 물론 엔비디아(NVIDIA) GB200 NVL72와 같은 랙 규모의 AI 슈퍼컴퓨팅 솔루션, AWS의 네트워크 스위치 및 스토리지 서버를 위한 공기 및 액체 냉각 기능을 원활하게 통합할 것이다. 이 유연한 멀티모달 냉각 설계를 통해 AWS는 전통적인 워크로드나 AI 모델을 실행할 때 최저 비용으로 최대 성능과 효율성을 제공할 수 있다. 이 독특한 액체 냉각 랙 설계는 AI 워크로드의 시장 출시 시간을 가속화하기 위해 선도적인 칩 제조업체들과 협력하여 개발됐다.
고밀도 AI 워크로드 지원: AWS는 데이터센터에서 랙을 배치하는 방법을 최적화함으로써 전력 사용 효율성을 극대화하고 있다. 이는 서버를 배치하는 가장 효율적인 방법을 예측하는 데이터와 생성형 AI 기반 소프트웨어를 통해 달성됐다. AWS는 이제 사용 가능하지만 사용되지 않거나 충분히 활용되지 않는 에너지인 미사용 전력(stranded power)의 양을 줄이고 사용 가능한 에너지를 더욱 효율적으로 활용할 것이다.
이 설계는 AI 워크로드에 필요한 차세대 하드웨어와 고밀도 랙을 지원하지만, 다른 여러 하드웨어 유형도 수용할 수 있을 만큼 유연하다. AWS 인프라는 750개 이상의 아마존 EC2(Amazon EC2) 인스턴스 갖춘 가장 광범위하고 심층적인 컴퓨팅 플랫폼으로, 고객에게 모든 워크로드에 맞는 최신 프로세서와 스토리지, 네트워킹, 운영 체제 및 구매 모델 선택권을 제공한다. 유연한 멀티모달 냉각 설계 외에도, AWS는 전력 공급 시스템에서 엔지니어링 혁신을 이루어 향후 2년 동안 랙 전력 밀도를 6배 증가시키고, 이후 3배 더 증가시킬 수 있도록 지원한다. 이는 데이터센터 전력을 랙 전체에 효율적으로 전달하여 전기 변환 손실을 줄이는 새로운 파워 쉘프(power shelf)를 통해 부분적으로 제공된다.
이러한 혁신을 종합하여 AWS는 고객 워크로드를 위해 사이트당 12% 더 많은 컴퓨팅 성능을 제공할 수 있다. 이러한 변화는 동일한 양의 컴퓨팅 용량을 제공하는 데 필요한 전체 데이터센터의 수를 줄일 것이다.
업데이트된 제어 시스템: AWS의 전기 및 기계 장치 전반에 걸쳐 아마존 자체 제어 시스템을 배포하여 모니터링, 경보 및 운영 시퀀스를 표준화할 수 있다. 예를 들어, AWS의 내부 구축 원격 측정 도구는 AWS 기술을 사용하여 실시간 진단 및 문제 해결 서비스를 제공하며, AWS는 이를 통해 고객을 대신하여 최적의 운영 조건을 유지할 수 있도록 한다. 또한 AWS는 복잡성을 줄이는 동시에 제어 시스템의 이중화를 강화했다. 이러한 이점으로 AWS는 99.9999%의 인프라 가용성을 설계할 수 있다.
3. 기계 에너지 소비 46% 감소 및 콘크리트 사용 시 체화 탄소 35% 감소 등 에너지 효율성 및 지속가능성 향상
수년간 AWS는 인프라 전반에 걸쳐 에너지 효율성과 지속가능성을 개선하는 데 앞장서 왔다. 연구에 따르면 현재 AWS의 인프라는 현재 온프레미스 인프라보다 최대 4.1배 더 효율적이며, AWS에서 워크로드를 최적화하면 관련 탄소 발자국을 최대 99%까지 줄일 수 있다. 아마존은 2030년까지 운영에서 소비되는 모든 전기를 100% 재생 에너지로 충당하겠다는 목표를 7년 앞선 2023년에 달성했다.
AWS는 지속적인 혁신을 통해 데이터센터 운영 방식을 재평가하고 인프라가 에너지를 더욱 효율적으로 사용할 수 있는 방법을 결정한다. 새로운 구성요소에는 에너지 효율성과 지속가능성을 위한 다음과 같은 업그레이드가 포함된다:
피크 냉각 시 메가와트당 물 사용량을 증가시키지 않으면서도 기존 설계 대비 기계 에너지 소비를 최대 46% 절감할 수 있는 보다 효율적인 냉각 시스템. 설계 변경사항에는 새로운 단면 냉각 시스템, 냉각 장비 감소, 액체 냉각 기능 도입이 포함된다.
데이터센터 건물 외피의 콘크리트 내 탄소 포집량을 업계 평균 대비 최대 35%까지 감소. AWS는 저탄소 강철 및 콘크리트 사양을 채택하고 구조 설계를 최적화하여 전체적으로 강철 사용을 줄이고 있다.
백업 발전기는 화석 디젤과 비교하여 연료의 수명주기 동안 온실가스 배출량을 최대 90%까지 줄일 수 있는 생분해성 및 무독성 연료인 재생 디젤로 운영될 수 있다. AWS는 이미 유럽과 미국의 기존 데이터센터에서 백업 발전기의 연료를 재생 디젤로 전환하기 시작했다.
이안 벅(Ian Buck) 엔비디아 하이퍼스케일 및 HPC 부문 부사장은 "데이터센터는 AI의 혁신적인 요구를 충족하기 위해 진화해야 한다"며 "고급 액체 냉각 솔루션을 활용하면 에너지 사용을 최소화하면서 AI 인프라를 효율적으로 냉각할 수 있다. 액체 냉각 랙 설계에 대한 AWS와의 협력을 통해 고객은 뛰어난 성능과 효율성으로 까다로운 AI 워크로드를 실행할 수 있을 것"이라고 말했다.
제임스 브래드버리(James Bradbury) 앤스로픽(Anthropic) 컴퓨팅 부문 수석 엔지니어는 "앤스로픽이 선도적인 파운데이션 모델을 개발하는 데 있어 안전하고, 성능이 뛰어나며, 에너지 효율적인 인프라에 대한 접근성은 중요한 성공 요소"며 "최첨단 데이터센터 구축을 위한 AWS의 노력은 우리가 주요 클라우드 제공업체이자 교육 파트너로 AWS를 선택한 핵심 이유 중 하나다. AWS의 설계 개선은 AI 모델을 구동하고 이 분야의 혁신을 주도하기 위한 안전하고, 확장 가능하며, 효율적인 인프라를 제공하는 데 있어 중요한 진전을 의미한다"고 말했다.
알렉스 린트너(Alex Lintner) 익스페리언(Experian) 기술, 소프트웨어 솔루션 및 혁신 부문 CEO는 "AWS의 지속적인 인프라 발전을 통해 우리는 데이터센터 운영이라는 차별화되지 않은 과중한 업무 대신 고객이 보다 정보에 입각한 재무 결정을 내리는 데 도움이 되는 새로운 서비스의 혁신에 집중할 수 있게 됐다"며 "보안과 규제 준수는 우리에게 기본적인 것이며, AWS와의 협력은 다양한 산업 전반에 걸쳐 기업을 지원하는 신뢰할 수 있는 기술 제공업체로서의 입지를 강화하는 데 도움이 된다. 에너지 효율적이고 AI에 최적화된 시설을 통해 우리는 데이터센터 관리보다는 데이터 기반 신제품의 신속한 제공에 더 많은 리소스를 투입할 수 있다"고 말했다.
새로운 데이터센터 구성요소는 34개 리전, 108개 가용 영역 및 AWS 로컬 존(AWS Local Zones)과 같은 다른 인프라 오퍼링을 포함한 AWS의 전 세계 인프라 전반에 걸쳐 확장 가능하도록 설계됐다. 모든 구성요소를 갖춘 새로운 AWS 데이터센터의 건설은 2025년 초 미국에서 시작될 예정이다.