SKT, ‘AI 클라우드 매니저’ 출시

2024-10-07

GPU 클러스터 자원 효율적 활용

AI 서비스 개발 모든 과정 관리

[정보통신신문=박남수기자]

SK텔레콤은 인공지능(AI) 인프라 자원을 최적화하고, AI 개발 환경을 통합 관리할 수 있는 AI 기반 기업간거래(B2B) 솔루션 ‘SKT 엔터프라이즈 AI 클라우드 매니저(이하 AI 클라우드 매니저)’를 출시했다고 8일 밝혔다.

‘AI 클라우드 매니저’는 SK텔레콤이 보유한 대규모 그래릭처리장치(GPU) 자원에 대한 관리 및 운영 노하우를 상용화한 제품으로, GPU 자원을 효율적으로 활용할 수 있는 AI Job 스케줄러 기반의 GPU 클러스터 특화 솔루션이다. 기업 고객이 보유한 수많은 GPU 자원을 마치 한 대의 컴퓨터처럼 관리해 GPU 성능을 극대화하고, AI 개발을 위한 학습 소요 시간을 단축할 수 있다.

AI Job 스케줄러는 클라우드 환경에서 다수의 작업(Job)이 요청되면 한정된 자원을 효율적으로 배분해 사용자의 작업이 원활히 수행되도록 도와주는 역할을 한다.

대규모 데이터 학습에 GPU 자원이 많이 소모되기 때문에 이와 같은 AI 자원 최적화는 AI 클라우드 솔루션에 꼭 필요한 기능이다. 예를 들어 프로젝트마다 GPU 사용량 및 성능을 실시간으로 모니터링하고, 사용하지 않는 GPU를 감지해 다른 프로젝트에 재분배한다. 또, 우선 순위가 높은 프로젝트에 클라우드 자원을 먼저 할당하는 등 자원 효율성도 높인다.

또, ‘AI 클라우드 매니저’를 활용하면 AI 개발의 모든 과정을 체계적으로 관리할 수 있다. AI 서비스 개발은 데이터 전처리 및 저장·관리 △모델 개발·학습 △모델 배포 △모델 추론 등 많은 단계를 거친다. ‘AI 클라우드 매니저’는 각 개발 과정에서 고객이 활용하기 쉬운 기능을 제공하고, 모든 과정이 유기적으로 연계될 수 있도록 하는 ‘기계학습 운영(MLOps)’ 환경을 제공한다.

MLOps는 Machine Learning에 Operations를 덧붙인 용어로, ML 시스템 개발(데이터 수집, 전처리, 모델 개발, 학습, 평가 등)과 ML시스템 운영(모델 배포, 모니터링, 테스트 등)을 통합한 방식이다.

AI 모델 학습 과정에서는 대규모 데이터를 다수의 컴퓨터에 분산 처리하는 대규모 병렬 학습 환경을 제공해 학습 속도를 높인다. 또한, ‘AI 클라우드 매니저’는 개발자들이 손쉽게 AI 서비스를 개발할 수 있는 다양한 편의 기능도 탑재했다. 특정 소프트웨어를 설치할 필요 없이 ‘웹 브라우저(Web UI)’ 기반으로 사용할 수 있고, 다수의 개발자가 동시에 같은 AI 개발 프로젝트에 접근할 수 있는 등 협업 환경도 마련했다.

모델 추론 과정에서는 프로젝트나 비용에 최적화된 GPU 종류와 추론 엔진 조합을 고객이 선택할 수 있도록 제공한다. 최고 성능, 최저 비용, 최소 GPU 사용 등 다양한 조합이 지원된다. 또, 검색 증강 생성(RAG) 기술을 도입해 과거 자료를 최신 정보처럼 인식해 제공하는 '환각현상(할루시네이션)'을 최소화한다.

SK텔레콤은 지난 9월 하나금융티아이와 협업해 대규모 GPU 클러스터를 구축했다. 이번 프로젝트에서 하나금융티아이는 ‘AI 클라우드 매니저’를 활용해 하나금융그룹이 AI 기술 수요에 안정적이고 유연하게 대응할 수 있는 환경을 구축했다. 효율적인 GPU 자원 운영, 학습 및 작업시간 단축 등이 가능해진 것이다.

김명국 SK텔레콤 Cloud CO 담당은 ”이번 ‘AI 클라우드 매니저’ 출시로 AI 서비스 도입을 준비하는 기업들이 GPU 자원의 성능을 극대화하고, AI 서비스를 효과적으로 개발할 수 있게 됐다”며, “향후 AI 데이터센터와 GPU 서버를 안정적으로 공급하고, 이를 관리하는 필수 솔루션들도 함께 제공해 AI 데이터센터 솔루션 사업 분야를 선도해 나갈 것”이라고 말했다.

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.