Arm, 새로운 PyTorch 및 ExecuTorch 통합으로 클라우드·엣지에서 AI 가속화해 개발자를 위한 즉각적인 성능 향상 제공

2024-09-30

Arm은 최근 Arm® Kleidi 기술을 PyTorch 및 ExecuTorch와 통합하여 차세대 앱이 Arm CPU에서 대규모 언어 모델(LLM)을 실행할 수 있도록 지원한다고 발표했다. Kleidi는 최신 개발자 지원 기술과 핵심 리소스를 결합하여 ML 스택 전반에서 기술 협업과 혁신을 촉진한다. 이러한 중요한 새로운 개발을 통해 Arm은 개발자가 ML 스택의 어느 단계에 있든 원활한 경험을 극대화할 수 있도록 한다.

Arm의 개발자 기술 부문 부사장인 알렉스 스피넬리(Alex Spinelli)는 “Arm은 소프트웨어 개발자가 Arm 기반 하드웨어에서 가속화된 AI와 ML 워크로드를 쉽게 구현할 수 있는 환경을 조성하기 위해 선도적인 클라우드 서비스 제공업체 및 프레임워크와 긴밀히 협력하고 있다”며, “Kleidi는 출시된 지 불과 4개월 만에 이미 개발을 가속화하고 Arm CPU에서 주요 AI 성능 향상을 실현하고 있으며 Arm과 PyTorch 커뮤니티와의 긴밀한 협력은 해당 기술이 개발자가 효율적인 AI를 활용하는 데 필요한 노력을 대폭 줄여주는 좋은 예”라고 말했다.

주요 프레임워크와의 통합으로 클라우드의 핵심 이점 제공

클라우드에서 Kleidi는 Arm 컴퓨팅 라이브러리(ACL)를 통해 PyTorch를 개선한 Arm의 기존 작업을 기반으로 모든 곳에서 Arm의 AI를 최적화하기 위한 청사진을 수립한다. Arm은 개발자가 불필요한 엔지니어링 작업을 직접 수행하지 않고도 중요한 ML 워크로드를 실행하기 위한 플랫폼으로 Arm을 선택하기를 원한다. 이 비전을 향한 핵심 단계로 Arm은 PyTorch 및 TensorFlow와 직접 파트너십을 맺고 이러한 주요 프레임워크에 직접 통합된 필수 Arm 커널(kernels)로 구성된 Arm Kleidi 라이브러리를 통합했다.

즉, 애플리케이션 개발자는 새로운 프레임워크 버전이 출시되는 즉시 Arm을 기반으로 구축하기 위한 추가 단계를 거치지 않고도 극적인 성능 개선의 이점을 자동으로 누릴 수 있다. 이러한 투자의 긍정적인 영향은 이미 파트너십에서 확인되고 있다:

 Meta Llama 3 대규모 언어 모델에 기반하며 AWS Graviton 프로세서에서 실행되는 Arm의 데모 챗봇은 메인라인 PyTorch에서 처음으로 실시간 채팅 응답을 지원한다.

o AWS Graviton에서 측정한 기준 기준, Kleidi 기술을 오픈 소스 PyTorch 코드베이스에 통합한 후 첫 토큰 생성 시간이 2.5배 단축됐다.

 ACL을 통해 제공되는 Kleidi 기술을 효율적으로 활용하기 위해 torch.compile에 최적화를 적용한 결과, 다양한 허깅페이스(Hugging Face) 모델 추론 워크로드에서 AWS Graviton3 성능이 1.35배에서 최대 2배까지 향상됐다.

이 두 가지 인상적인 클라우드 사례는 Arm에서 ML 워크로드를 보편화하기 위해 노력하면서 실현 가능한 성능 가속화의 유형을 나타낸다. Arm은 개발자가 즉시 활용할 수 있도록 새로운 기능을 이전 버전과 호환되도록 하는 등 개발자의 AI 앱이 클라우드부터 엣지까지 자사 기술에서 최상의 성능을 발휘할 수 있도록 지속적으로 투자하고 있다.

개발자가 생성형 AI에 대응할 수 있도록 지원하는 파트너십

생성형 AI는 전례 없는 속도로 새로운 버전의 언어 모델이 출시되는 등 AI 혁신의 물결에 박차를 가하고 있다. Arm은 개발자가 앞서 나갈 수 있도록 AWS, Google과 같은 클라우드 서비스 제공업체, 그리고 빠르게 성장하고 있는 Databricks와 같은 ML ISV 커뮤니티를 비롯한 ML 스택의 모든 주요 부분과 긴밀히 협력하고 있다.

Google Cloud 제품 관리 시니어 디렉터인 니라브 메타(Nirav Mehta)는 “Arm과 당사는 모두 개발자의 AI 접근성과 민첩성을 높이기 위해 노력하고 있으며, Kleidi는 AI 요구사항에 맞게 하드웨어와 소프트웨어를 공동 최적화하는 데 큰 진전을 이뤘다”며, “고객이 맞춤형 Arm 기반 CPU인 Axion을 도입함에 따라 전체 ML 스택에서 더욱 원활하게 통합할 수 있게 되기를 기대한다”고 전했다.

Databricks의 소프트웨어 엔지니어인 린 유안(Lin Yuan)은 “AI 및 ML 워크플로우를 위해 당사의 데이터 인텔리전스 플랫폼(Data Intelligence Platform)을 활용하는 조직은 ML 소프트웨어 스택 전반에서 Arm Kleidi 통합이 제공하는 성능 최적화의 이점을 누릴 수 있다”며, “당사의 ML 런타임(ML Runtime) 클러스터에서 지원하는 Arm 기반 AWS Graviton 프로세서를 통해 기업은 광범위한 ML 라이브러리의 속도를 높이는 동시에 클라우드 서비스 제공업체의 비용을 절감하는 이점을 누릴 수 있다”고 전했다.

개발자가 Arm이 제공하는 리소스를 실제 사용 사례에 적용하는 것이 중요하기 때문에 Arm은 개발자에게 Arm CPU에서 AI 워크로드를 구축하는 방법을 보다 정확히 보여주기 위해 학습 경로와 함께 데모 소프트웨어 스택을 제작하고 있다. 이를 통해 개발자는 Arm 시스템을 빠르게 채택하고 배포 시간을 단축할 수 있다. 이러한 스택 중 첫 번째 사례인 Kleidi 기술로 가속화된 채팅 봇 구현에 대한 자세한 내용은 이곳에서 확인할 수 있다. 2024년 말에는 ML 운영 및 검색 증강 생성(RAG)이 이러한 사용 사례에 추가될 것이며, 2025년에는 더 많은 사용 사례가 추가될 예정이다.

엣지에서 지속적인 성능 향상 추진

엣지에서의 Kleidi의 모멘텀을 바탕으로, KleidiAI는 PyTorch의 새로운 온디바이스 추론 런타임인 ExecuTorch에 통합될 계획이다. 이 통합은 2024년 10월에 완료될 예정이며, 현재 ExecuTorch에서 프로덕션 테스트 중이거나 출시 중인 앱 전반에서 엣지 디바이스의 성능이 크게 향상될 전망이다. 통합이 완료되면 엣지 기기 성능에 미치는 영향에 대한 더 많은 데이터와 세부 정보가 공유될 예정이다.

이는 Google의 XNNPACK 및 MediaPipe, 그리고 Tencent의 Hunyuan LLM 등 Arm이 이미 발표한 여러 KleidiAI 통합에 합류된다. 챗봇 데모에서 실제 워크로드에 미치는 영향에 대한 자세한 내용을 확인할 수 있다.

Kleidi가 다른 모든 주요 AI 프레임워크와 함께 PyTorch 및 ExecuTorch 릴리스와 계속 통합됨에 따라 개발자는 클라우드 데이터 센터에서 엣지 디바이스에 이르는 다양한 디바이스에서 Arm에서 효율적이고 성능이 뛰어난 AI 워크로드를 즉시 실행할 수 있다. Arm은 앞으로도 PyTorch 커뮤니티에 개선 사항을 적극적으로 도입할 예정이며, 향후 다양한 정수 형식에 대한 양자화 최적화를 제공하여 성능을 더욱 향상시키는 데 주력할 계획이다. 이러한 작업을 통해 차세대 AI 경험을 대규모로 Arm CPU에서 원활하게 구현할 수 있게 된다.

개발자의 역량을 더욱 강화하기 위한 추가 지원

PyTorch는 ML 개발 분야에서 상당한 혁신을 주도하고 있으며, 최근 Arm은 AI 여정의 분수령이 될 PyTorch 재단에 프리미어 멤버로 합류했음을 발표했다. Arm은 엔드투엔드 AI의 잠재력을 최대한 발휘하여 전 세계 개발자들이 최첨단 AI 및 애플리케이션 기능을 개발할 수 있도록 지속적으로 지원하고 있다.

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.