[인터뷰] 나한들 케이투스코리아 엔터프라이즈사업부 기술총괄 이사
많은 기업이 생성형 인공지능(AI)을 채택하려 고가의 GPU 서버를 사들이고 있다. 하지만, AI 애플리케이션을 개발하고 현업 시스템에 적용하기까지 여러 장애물과 만난다. 특히 GPU 자원을 비효율적으로 활용해 투자 대비 효율이 떨어지고, 전체적인 AI 프로젝트 기간도 늘어나는 문제가 크다.
국내에 적지않은 x86 서버 하드웨어를 공급하는 서버 회사 ‘케이투스(Kaytus)’는 AI 모델의 개발부터 배포에 이르는 전 과정에서 GPU 인프라의 효율성과 안정성을 향상시키는 AI 데브옵스 플랫폼 ‘모투스AI(MotusAI)’를 제공하고 있다.
나한들 케이투스코리아 엔터프라이즈사업부 기술총괄 이사는 “기업에서 AI 모델을 개발할 때 여러 GPU를 클러스터 단위로 묶고, 내부 개발팀에 할당해 사용하는데, 어딘가에 할당된 GPU 중 유휴 자원을 다른 사용자에게 동적으로 줄 수 있는 솔루션”이라며 “모투스AI는 개발자나 사용자에게 GPU 자원을 분배하고, 자원 스케줄을 짜고, 문제있는 노드의 문제를 해결하는 등 전반적인 GPU 운영 이슈를 손쉽게 해결하도록 도와준다”고 설명했다.
회사에 따르면, 모투스AI는 GPU 자원 투입을 대폭 절감하고 개발 효율성을 높이며, 클러스터 컴퓨팅 자원 활용률을 70% 이상으로 끌어올린다. 또한 대규모 학습 작업의 스케줄링 성능을 크게 향상시킨다.
모투스AI는 효율적인 GPU 스케줄링과 워크로드 오케스트레이션을 통해 리소스 효율성을 높여준다. 네트워크 친화성(affinity) 및 GPU 로드 스케줄러를 포함한 고급 리소스 스케줄링 전략을 제공해 활용도를 극대화하며, 온디맨드 GPU 리소스 할당 및 정밀한 GPU 분할을 지원한다. 수백 개의 POD를 빠르게 기동하고 환경을 신속히 구성할 수 있는 효율적인 워크로드 스케줄링 기능으로, 오픈소스 스케줄러 대비 처리량을 5배 향상시키고 지연 시간은 5분의 1 수준으로 감소시킨다.
모투스AI는 개발자에게 언제든 GPU를 활용해 AI 모델을 개발할 수 있는 개발 환경을 제공하는 한편, 관리자에게 조직내 GPU 자원을 효율적이고 안정적으로 운영하면서, 가시성을 확보하게 한다.
나한들 이사는 “보통 AI 솔루션은 인프라 구축 단계에서 OS, 드라이버, 패키지, 프레임워크 등을 설치하는 수고로운 작업이 많은데, 트레이닝 중 드라이버가 깨져서 재설치해야 하는 경우도 종종 있다”며 “관리자는 전반적인 인프라 이슈를 쉽게 해결하고, 개발자는 개발 중단을 최소화할 수 있다”고 말했다.
그는 “AI/ML 옵스 솔루션은 인프라, 오케스트레이션, 운영, ML옵스 툴 등을 포괄적으로 지원할 수 있어야 한다”며 “고객이 가진 데이터를 가져와서 모델을 훈련시키고 튜닝한 뒤 테스트를 하고, 인퍼런스로 넘겨서 운영하기까지 과정을 단일 환경에서 할 수 있어야 한다”고 강조했다.
모투스AI는 모델 학습과 추론 과정의 워크플로우를 간소화하도록 설계됐다. 파이토치, 텐서플로우, MXNET 등 주요 딥러닝 프레임워크와, 메가트론, 딥스피드 등 분산 학습 프레임워크와도 호환된다. 주피터 노트북, 웹셸, IDE 등 다양한 개발 도구를 포함한다. 데이터 전송을 가속해 모델을 빠르게 개발하게 하며, 원격 데이터의 로컬 로딩, 제로 카피 데이터 전송 등 다양한 전략을 통해 데이터 지연 시간과 캐싱 주기를 단축시킨다.
모델 추론의 효율성을 높이기 위한 다양한 기능도 함께 제공한다. 로우코드 배포 기능을 통해 원클릭으로 모델을 서비스에 적용할 수 있으며, 트래픽 급증 상황에 리소스를 자동으로 확장한다. 수만 건 요청이 동시에 발생하는 고병렬 추론 환경에서 평균 지연 시간을 수 밀리초 이내로 유지하고, 응답 효율성을 50% 이상 향상시킨다는 게 회사측 설명이다.
안정적인 AI 모델 운영을 위한 고가용성(HA) 및 장애 복구 기능도 갖췄다. HA 아키텍처와 구성 요소를 함께 적용하며 3노드 액티브-액티브 구조를 채택해 고가용성을 보장하고, 마이크로서비스를 로드 밸런싱 전략에 따라 호출해 플랫폼의 안정성을 높인다. 모투스AI는 장애 복구 기능을 통해 서비스 중단 시 자동으로 서비스를 이전할 수 있으며, 애플리케이션은 수 초 내에 복구된다. 통합 그래픽사용자 인터페이스(GUI)를 통해 모니터링, 운영 및 유지보수를 손쉽게 수행할 수 있어 관리 부담과 운영 비용을 줄여준다.

나 이사는 “GPU 풀 스케줄링의 경우 엔비디아의 MIG 외에 GPU 슬라이싱도 지원하므로 1기가 단위로 나눠 소규모로 할당할 수 있다”며 “GPU뿐 아니라 스토리지와 CPU도 전체 리소스 풀을 만들어 사용자별로 할당하는 게 가능하다”고 설명했다.
그는 “모니터링과 통계 기능에서 클러스터 사용률, 노드 사용률, 클러스터 내 GPU 그룹 리소스 유틸라이징, 네트워크 사용량, 개별 GPU 사용량, 할당된 태넌트 혹은 태스크 당 사용량 등을 확인할 수 있다”며 “이는 AI 인프라를 클라우드 형태의 서비스에 적용하거나 내부 서비스를 운영하면서 사용자별로 과금할 때 유용하게 활용할 수 있”고 강조했다.
모투스AI는 안정적이고 효율적인 AI 클러스터 관리와 간소화된 AI 워크플로우에 초점을 맞춘다. 케이투스는 모투스AI를 하드웨어 플랫폼과 함께 턴키 솔루션 형태로 제공하고 있다. 해당 턴키 솔루션은 컴퓨팅, 스토리지, 오케스트레이션, 자동화 기능을 통합한 단일 플랫폼으로 제공된다.
모투스AI의 최신 버전은 1.1이다. 올해 중 모투스 AI 1.2 버전이 출시될 예정이다. 현재는 한 노드를 트레이닝 서버로 할당하면 해당 목적으로만 사용할 수 있는데, 새 버전의 경우 할당된 서버를 트레이닝이나 인퍼런스 등으로 동적으로 혼합해 사용할 수 있게 된다. 여러 클러스터를 한 곳에서 관리할 수 있는 기능도 생긴다.
모투스AI는 엔비디아 엔터프라이즈 AI 소프트웨어 대신 활용 가능한 플랫폼이다. 엔비디아가 인수해 GPU 운영 플랫폼으로 제공하는 런에이아이(Run.ai)와 유사하다.
나 이사는 “보통 하드웨어 제조사에서 제공하는 인프라 솔루션은 상단의 애플리케이션까지 다루지 않는다”며 “케이투스도 주요 사업은 하드웨어지만 서드파티 이나 시스템통합(SI)에 의존하지 않고 제조사 차원에서 AI 데브옵스 솔루션을 같이 제공할 수 있다는 게 가장 큰 차이”라고 강조했다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network