![](https://byline.network/wp-content/uploads/2025/02/oracleupstagetwelvelabs.jpg)
한국을 대표하는 생성형 인공지능(AI) 모델 개발회사 업스테이지와 트웰브랩스는 대규모 AI 학습용 인프라로 오라클클라우드인프라스트럭처(OCI)를 선택했다. 두 회사는 모두 OCI에서 제공한 AI 인프라의 속도와 가격을 선택의 이유로 꼽았다.
트웰브랩스의 이승준 최고기술책임자(CTO)와, 업스테이지의 김민성 LLM 사업개발총괄은 지난 11일 열린 ‘오라클 클라우드 서밋 2025’에서 진행한 <바이라인네트워크>와 인터뷰에서 “오라클 OCI가 가격과 성능, 그외 부속 요소에서 매력적인 학습인프라 제공한다”고 입을 모았다.
멀티모달 비디오 이해를 위한 파운데이션 모델을 구축하는 트웰브랩스는 OCI AI 인프라 서비스를 활용해 AI 모델을 품질이나 속도에 타협없이 대규모로 훈련시킬 수 있었다. OCI는 비디오 이해를 더욱 고도화하기 위해 필요한 성능, 확장성, 클러스터 네트워킹을 제공하고, 동시에 AI 모델 배포에 드는 시간과 비용을 크게 줄였다고 한다.
이승준 트웰브랩스 CTO는 “2022년부터 OCI에서 대규모로 A100이나 H100 GPU 클러스터를 활용해 모델 학습에 활용했는데. 당시에 다른 클라우드와 비교할 때 가격 대비 성능에서 가장 효능감이 좋았다”며 “각 클라우드마다 AI 학습인프라의 장점이 있지만, OCI는 GPU 외에 CPU, 스토리지, 네트워킹 같은 외적인 인프라 부속 요소가 대규모 학습에 매력적이었다”고 설명했다.
![](https://byline.network/wp-content/uploads/2025/02/leetwelvelabs.jpg)
업스테이지는 OCI AI 인프라 서비스를 활용해 AI 모델 개발 및 배포를 가속하고 글로벌 시장에서의 경쟁력을 강화할 수 있는 환경을 구축했다. 업스테이지는 자체 사전학습 거대언어모델 ‘솔라’와 AI OCR 솔루션 ‘도큐먼트 AI’ 등 AI 모델의 복잡한 학습 과정을 신속히 처리하고 지원할 강력한 인프라로 OCI를 선택했다.
김민성 업스테이지 LLM 사업개발총괄은 “OCI는 주력으로 사용하는 여러 클라우드 중 하나로 학습속도, 합리적 비용, 촘촘하게 정비된 SLA 보상 정책 등에서 매력적”이라고 말했다.
더 구체적인 측면에서 두 회사에게 OCI는 GPU 서버 노드 간 통신 속도에서 매력적이었다고 한다.
이승준 CTO는 “대형 모델을 학습할 때 여러 하드웨어를 함께 써서 분산 학습을 시키는데, 이 때 가장 중요한 게 노드 간의 통신 속도”라며 “이 속도가 느리면 한 노드에서 작업을 끝낼 때까지 전체가 기다리게 되는데, 클라우드 서비스를 검토할 당시 OCI는 고속 RDMA 네트워크로 3200 Gbps 속도를 지원했다”고 설명했다.
이 CTO는 “당시에 이런 속도를 제공하는 클라우드는 애저와 OCI밖에 없었고, CPU나 스토리지 같은 다른 부속 요소까지 볼 때 OCI가 더 좋다고 판단했다”고 덧붙였다.
김민성 총괄은 “클라우드의 AI 인프라 서비스는 사용 시간 단위로 과금을 하기 때문에 노드 간 통신 속도가 중요하다”며 “GPU를 100%를 활용하는 것과 80%를 활용하는 것을 비교할 때 업스테이지 같은 회사에게 LLM을 한달 만에 만들 걸 2주일 만에 만드는 건 큰 차이를 만든다”고 강조했다.
![](https://byline.network/wp-content/uploads/2025/02/kimupstage.jpg)
이들은 안정성과 보안 측면에서도 OCI에 큰 장점이 있다고 설명했다.
트웰브랩스 이승준 CTO는 “모든 클라우드에서 GPU 페일은 일어난다”며 “중요한 건 얼마나 빨리 복구하냐고, 그런 부분에서 OCI가 만족스럽다”고 말했다.
업스테이지 김민성 총괄은 “매우 많은 노드를 쓰다보니 무조건 하드웨어 페일은 일어나는 것이고, 복잡하게 자원을 많이 쓰기에 어떻게 문제가 발생했는지 추적할 수 없는 게 대부분”이라며 “이때 서비스사업자가 얼마나 빨리 대처하느냐가 중요한데, 오라클은 어디서 페일이 났는지 찾고, 그에 대해 체계적인 보상 방안을 갖고 있다”고 설명했다.
김 총괄은 “AI 학습 인프라는 회색 영역이 많다보니 SLA가 다 다르면 보상하기도 받기도 어렵고 대응도 어렵다”며 “오라클은 이런 부분이 명확하게 규정돼 있어 큰 장점이라 생각한다”고 덧붙였다.
두 사람은 모두 오라클을 단순한 클라우드 공급사로 여기지 않는다고 밝혔다. 오라클의 클라우드 서비스 생태계를 활용해 전세계 고객에게 AI 서비스를 공급할 수 있는 파트너라고 본다는 것이다.
김민성 총괄은 “오라클 데이터베이스 고객이 한 곳에 모이는 마켓플레이스가 있다”며 “거기에서 오라클과 또 다른 협업 포인트를 찾거나, 업스테이지의 글로벌 고객에게 오라클 OCI GPU 기반으로 모델을 제공하는 등의 관점에서 협업할 수 있다”고 말했다.
김 총괄은 “엔비디아 하드웨어를 직접 사서 쓰는 방법도 있겠지만, 클라우드 생태계를 활용 가능하다는 점이 더 큰 임팩트라고 생각한다”고 덧붙였다.
이승준 CTO는 “오라클은 학습과 추론 측면 모두에서 최신의 GPU를 제공하는 AI 파트너면서 트웰브랩스의 모델을 규모있게 전달할 수 있는 배포 파트너”라고 밝혔다.
오늘날 AI 모델 영역은 눈부시게 발전하고 있고, 자본과 규모의 경제를 가진 기업이 AI 경쟁에서 우위를 점할 수밖에 없는 상황이다. 거인들의 틈바구니 속에서 한국의 AI 모델 개발사는 어떻게 차별화하고 생존할 수 있을까.
트웰브랩스 이승준 CTO는 “영상 특화 모델을 제품 측면에서 보면, 영상을 잘 이해하기 위해 또 다른 인프라가 많이 필요하다”며 “우리의 고객은 평균적으로 1000시간에서 1만시간 단위까지도 영상을 보유하고 있는데, 이런 대규모 영상을 어떻게 다 모델로 인덱싱할 것이고, 추론 시스템까지 만들어 영상을 잘 처리하게 할 것인지가 차별점”이라고 말했다.
업스테이지 김민성 총괄은 “업스테이지는 기술 스택 차원에서 컴퓨터 비전을 잘하는 기술력을 보유했다”며 “유즈케이스로 바꿔 표현하면 보통 LLM 하나만 도입하거나 유즈케이스로 쓰는 경우는 없고, 보유한 비정형 문서를 기반으로 소스를 가져와서 검색하거나 요약하거나 추출하는 등의 시나리오가 진짜 피부에 와닿는 유즈케이스고 이를 도큐먼트AI란 제품으로 지원한다”고 설명했다.
그는 “글로벌하게 멀티모달 모델이 나오지만. PNG나 JPG 형식만 인풋으로 받을 수 있는 반면에 업스테이지의 도큐먼트AI는 인풋 형식을 그 외에 DOCS, PPT, 스캔 PDF 등등으로 다양하게 할 수 있고, 곧 HWP 파일까지 지원하게 된다”며 “LLM을 쓰고 싶어도 이런 문서 형식을 다루던 기업은 쓰지 못했는데, 인풋 커버리지를 높인 덕에 그들에게도 피부에 와닿게 제공한다”고 강조했다.
![](https://byline.network/wp-content/uploads/2025/02/JSykNAu6JhkejY1G6MAjEF28X2Q.jpg)
트웰브랩스는 영상 데이터를 많은 기업에서 보유하고 있지만, 어떻게 활용할 지 판단한 기업은 드물다고 보고 있다. 영상 특화 AI 모델을 제공하는 트웰브랩스 입장에서 고객에게 와닿는 밸류를 찾아내고 제품과 모델에 반영하는 순환구조를 만드는 걸 과제로 삼는다.
이승준 CTO는 “LLM의 경우 기업들이 어느 정도 써 봐서 그 밸류를 인지하게 됐지만, 영상은 아직 밸류를 찾아나가야 하는 부분이다”라며 “재미도 있지만 어려운 부분이기도 하고, 어디에 밸류가 있는 지 고객과 같이 만들어나가는 것을 제일 초점으로 맞추고 있다”고 말했다.
업스테이지는 기업 내부에 존재하는 무수한 데이터에 진정한 활용 가치를 부여하는 것을 과제로 본다. AI 모델에서 활용할 수 있게 데이터를 자산화하는 전처리 과정에 많은 신경을 쓰고 있다.
김민성 총괄은 “LLM을 도입하고 싶어 하는 기업들을 보면 쓸 수 없는 형태의 데이터가다수”라며 “보험사만 해도 정말 다양한 형태의 문서 타입과 포맷을 받아야 하는데, 그 채널이 휴대폰으로 촬영한 진료비 영수증 이미지거나, 스캔된 PDF거나 해서 이를 LLM에 넣었을 때 인식하고 그 기반으로 답을 내놓느냐 하면 아니다”라고 말했다.
그는 “이런 괴리 때문에 LLM을 도입하는 많은 회사가 한땀한땀 데이터 전처리를 하고 수동으로 입력하는 식으로 했는데, 최근 도큐먼트 파스(Parse)란 제품을 출시해서 그런 어려움을 상당부분 해소하게 됐다”며 “이를 통해 쓰지 못하던 데이터 비율을 80~90%에서 드라마틱하게 줄이고, LLM 기반 서비스를 만들 수 있게 한 것이 시장에서 업스테이지가 관심을 받는 부분”이라고 덧붙였다.
물론 오라클 클라우드에 완벽히 만족한 건 아니다. 아쉬운 부분도 있다. 이승준 CTO는 타 클라우드 대비 부족한 서비스 요소를, 김민성 총괄은 오라클 클라우드 생태계에서 업스테이지 솔루션을 더 많은 고객에게 OCI GPU 기반으로 제공하는 독립소프트웨어개발사(ISV)로서 협업의 개선을 꼽았다.
![](https://byline.network/wp-content/uploads/2025/02/67939fe593ec770a25bed2b8_6792d97cfa064291a05d3bf7_6792d94a9dbb06e8cd9b9563_parsing2520results2520sampleblog.jpg)
불과 1년전만 해도 대형언어모델(LLM)의 멀티모달 역량은 비디오나 오디오, 이미지 등의 정보를 텍스트로 변환해 토큰화한 뒤 AI 모델에게 입력하고, 텍스트로 추출된 답을 다시 제2, 제3의 포맷으로 뱉어내는 형태였다. 지금의 멀티모달은 이런 중간의 텍스트 변환 과정 없이 여러 데이터 입력 유형을 있는 그대로 이해하는 형태로 진화했다.
트웰브랩스와 업스테이지는 각각 영상과 OCR에 특화된 AI 모델을 개발하고 있다. 두 회사는 멀티모달에서 글로벌하게 경쟁력을 발휘할 수 있다고 자신한다.
이승준 트웰브랩스 CTO는 “우리의 모델은 비디오 자체를 토큰화한다”며 “로우 파일 시그널을 LLM이나 시맨틱한 데이터 토큰 값으로 변환하는 기술을 자체 개발했다”고 밝혔다. 그는 “이 기술을 잘 만들면 LLM의 논리와 결합했을 때 마치 사람과 대화하듯 소통할 수 있게 된다”고 덧붙였다.
업스테이지 김민성 총괄은 “업스테이지의 근간은 텍스트투텍스트고, 멀티모달리티를 주는 게 도큐먼트 AI”라며 “멀티모달리티를 인풋과 파일 포맷 관점에서 가져가고, 엔드유저나 고객이 비즈니스 임팩트를 크게 느끼는 멀티모달리티의 여러 형태를 문서 측면에서 1차적으로 대응하느게 당장 임펙트 관점에서 크다고 본다”고 말했다.
업스테이지는 지난달 일본 오피스를 개설했다. 보유한 OCR 기반 기술이 일본 시장에서 먹힐 것으로 봤기 때문이다. 일본 곳곳에 무수한 형식의 종이 문서와 정형화되지 않은 필기체 작성 문서가 엄청나게 많다.
김민성 총괄은 “일본은 종이나 비정형 문서에서 추출하고 인식하는 OCR 니즈가 전 산업분야에 걸쳐 포착된다”며 “그런 면에서 일본에서 OCR 쪽으로 여러 시장을 침투할 수 있을 것으로 기대하고 있다”고 말했다.
트웰브랩스는 기존에 촬영된 영상 콘텐츠를 활용해 새로운 장편 영상을 생성하는 분야에서 기회를 보고 있다.
이승준 CTO는 “새로운 비디오를 생성할 때 기존에 촬영한 콘텐츠로 어떤 것을 만드느냐에 따라 달라진다”며 “1970년대 터치다운 장면을 회상으로 넣기도 하고 새로운 스토리로 만들기도 하는 등 콘텐츠를 더 가치 있게 만드는 게 미디어 산업에서 많이 활용되고 있다”고 설명했다.
이 CTO는 “특히 롱폼 비디오 크리에이션을 주목하고 있다”며 “현재 비디오 생성 모델은 보통 30초단위로 만들어 주는데, 트웰브랩스는 다음 세대에 콘텐츠 제작 시 기존 영상 자체를 활용해 더 길게 만들 수 있다고 보고 있다”고 밝혔다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network