[웨비나 중계] AI 신도시에 모델만 ‘외로이’ 놓이면 벌어지는 일

2025-01-23

많은 기업이 생성형 인공지능(AI)에서 개념검증(PoC) 단계를 넘어 전사 확산과 실제 서비스 출시에 도전한다. 그러나 생성형 AI의 확산은 생각보다 쉽지 않다. 파일럿 프로젝트가 본궤도에 오르지 못하고 시작단계로 되돌아가는 경우도 많다.

생성형 AI를 전사적으로 도입하고자 하는 기업이 겪는 어려움은 결국 데이터다. AI 모델을 학습시킬 데이터가 충분치 않다거나, 많은 데이터 속에 유용한 데이터를 찾기 힘들어한다거나, 데이터를 제대로 활용하지 못하다거나 이유를 막론하고 데이터에서 막히기 쉽다.

이런 경우에 대해 스노우플레이크는 AI 모델을 뒷받침하는 플랫폼적 고민의 부재라고 원인을 진단한다. 일반적으로 기업의 데이터 환경은 애플리케이션이나 시스템마다 개별적으로 구축돼 있다. 시스템별로 데이터의 유형, 형식, 관리정책, 접근권한이 제각각이다. 이런 데이터 사일로, 파편화 상태가 생성형 AI의 확장을 가로막는다.

조동규 스노우플레이크코리아 파트너 어카운트 매니저(상무, 표지사진)는 지난 16일 <바이라인플러스>가 주최한 웨비나 ‘Insight to Impact: 데이터가 말하는 산업별 성공 전략’에서 “여러 기업이 AI 관련 검증, 실증, 적용 등의 사업을 많이 하지만 최근 고객들은 ‘단순히 AI를 하려 했는데, 결국 데이터 문제로 다시 귀결되더라’는 말을 많이 한다”며 “제대로 된 데이터 전략이 없으면 AI 전략을 펼치기가 쉽지 않다”고 말했다.

조동규 상무는 “데이터가 있어야, AI를 학습시키고, 그것으로 다시 서비스를 하게 되는데, AI를 전사적으로 확산하려 할 때 도시 인프라처럼 모델 주위에 인프라와 플랫폼 자체를 준비해놓지 않으면 그 이상의 뭔가를 할 수 없게 된다”며 “앞으로 기업이나 고객에게 제공하는 모든 서비스에 AI 기능이 탑재될 텐데, 개발 단계부터 AI와 데이터, 그리고 두가지를 섞은 형태를 얼마나 잘 배포하고 구축하느냐가 플랫폼에서 중요한 부분이 된다”이라고 강조했다.

AI를 할 때 하나의 데이터셋이나 서비스만 볼 게 아니라 플랫폼 관점에서 고민해야 한다는 게 스노우플레이크의 강조점이다.

데이터 파편화는 여러 문제를 야기한다. AI 모델은 데이터를 얼마나 많이 학습할 수 있느냐, 얼마나 양질의 데이터를 학습할 수 있느냐로 그 품질(정확성)과 성능에 큰 차이를 갖게 된다. 저마다의 모습으로 흩어진 데이터는 AI 모델의 절대적인 학습량 부족을 초래하고, AI 모델은 최신 데이터와 컨텍스트 이해가 부족한 상태에서 엉뚱하거나 두루뭉술한 답을 제시하게 만든다.

조 상무는 “데이터 양 자체가 부족하면 제대로 된 AI를 실행할 수 없고, 데이터가 많아도 원하는 필드값이 없어도 안 된다”며 “빠르게 변화하는 시대에 전날, 오전, 1시간 전 등 실시간성 데이터를 요구하는 상황도 많다”고 말했다.

그는 “기업 관계자들이 내부에 데이터는 많은데 쓸 게 없다든지, 어디에 뭐가 있느지 모르겠다고 하는 경우의 대부분은 데이터를 각자 저장하거나 권한, 혹은 시간이 지나 무얼 만들었는지 모를 정도로 파편화됐기 때문”이라며 “원하는 데이터를 쓰지 못하면 생산성이 저하되고, 비용이 증가하며, 보안 같은 운영 문제도 같이 발생한다”고 덧붙였다.

파편화된 상황에서 데이터 활용을 요구하는 데이터 소비자는 급속도로 많아지고 있다. 과거 한정된 부서만 데이터를 활용했다면, 이제 각 현업부서 모두 데이터를 활용한다. 사람뿐 아니라 AI 모델도 데이터 소비자 중 하나다.

한때 문제 해결책으로 데이터레이크가 제시되기도 했다. 그러나 데이터를 무작정 한곳에 모은다고 문제를 해결할 수 없다. 정형 및 비정형 데이터를 어떻게 관리할 것인지, 데이터에 어떻게 접근하게 할 것인지, 권한 관리는 어떻게 할 것인지 등 고민할 게 더 많다.

조 상무는 “기업의 AI 데이터 플랫폼은 소비자의 기술 세트와 스킬 차이, 데이터 소스의 차이 등을 모두 수용하고 쉽게 쓸 수 있어야 한다”며 “컴플라이언스, 시큐리티, 접근권한까지 같이 수행하는 것은 이 플랫폼의 숙명”이라고 밝혔다.

그는 “전보다 많은 사람이 데이터 쓰고자 하는 데이터 대중화 속에서 데이터를 자유롭고 편하게 쓰게 만들어야 다음으로 나아갈 수 있고, AI에 중요한 뒷받침이 된다”고 강조했다.

스노우플레이크는 클라우드 스토리지에 정형, 비정형 등의 데이터를 다 넣도록 하고, 데이터를 중심으로 기업에서 필요로 하는 다양한 관련 기능을 추가하는 플랫폼을 지향한다. 최근엔 폴라리스 카탈로그라 해서 데이터의 형태, 포맷만 정의하면 이기종 클라우드, 이기존 테이블 간에도 편하게 데이터를 쓸 수 있게 했다.

스노우플레이크는 이를 ‘AI 데이터 클라우드 플랫폼’이라 부르는데, 컴퓨팅 계층과 스토리지 계층을 분리해 데이터 수요 성격에 따라 용량이면 용량, 연산력이면 연산력을 따로따로 확장, 축소하게 했다.

조 상무는 “원하는 만큼 스토리지를 늘릴 수 있으며, 컴퓨팅 계층도 필요에 따라 언제든지 즉시 확보해 원하는 업무에 쓰도록 구성할 수 있다”며 “플랫폼에서 여러 파운데이션모델을 쓸 수 있고, 플랫폼 차원의 LLM 기능을 활용하면 자연어로 데이터를 조회하고 바로 시각화할 수 있다”고 설명했다.

스노우플레이크는 전세계적으로 하루에 63억건에 달하는 쿼리를 소화하고 있다. 고객의 쿼리 성능을 지속적으로 개선함으로써 비용 효과도 높이고 있다.

조 상무는 “스노우플레이크는 연산 시간 단위로 과금하는데, 쿼리 성능을 높여 연산 시간을 단축함으로써 고객의 전체 비용을 절감시키고 있다”며 “2022년과 2024년 사이에 쿼리 시간이 27% 줄었다”고 설명했다.

사용하기도 쉽게 했다. 코텍스AI란 LLM 기반 기능은 노코드 기반의 스튜디오, 또는 SQL, 파이썬, REST API로 데이터와 AI 인프라에 접근할 수 있게 해준다. 데이터와 AI 인프라는 서버리스 기반의 완전관리형 서비스다. 채팅으로 정형 데이터를 분석할 수 있고, 비정형 데이터의 경우도 채팅으로 검색해 문서를 조회할 수 있다.

데이터가 있는 곳에서 AI/ML 모델, 프레임워크, 애플리케이션 개발부터 배포까지 가능하다. AI 워크플로우가 데이터 중심 환경에서 운영된다. 이미 입증된 보안과 거버넌스 기능을 함께 제공해 데이터뿐 아니라 AI 자산도 안전하게 보호한다.

조 상무는 “데이터 관점에서 데이터 이동을 수반하는 데이터 공유 방식은 한계에 이르렀다”며 “FTP, API, ETL 대신 모든 데이터를 스노우플레이크에 두고, 필요한 사람에게 권한을 줘서 접근하게 하는 방식으로 공유하면 실시간성이나 대용량 데이터를 조인해 새로운 형태의 인사이트로 기획이나 서비스 구축에 활용하는 게 가능해진다”고 말했다.

그는 “스노우플레이크 마켓플레이스를 이용하면 외부의 데이터도 쉽게 확보해서 생산성을 높일 수 있다”고 강조했다.

스노우플레이크는 다양한 산업군에서 사례를 만들어내고 있다. 조동규 상무는 지리정보 데이터 활용 사례를 예로 들었다.

조 상무는 “지리정보 데이터는 여행업, 부동산, 통신, 농업, 유통, 기상기후 등 다양한 분야의 서비스에서 활용된다”며 “인공위성, CCTV, 센서, 교통정보, 주소정보, 통신정보 등으로 매우 다양한 데이터 소스를 AI에 학습시키거나 표준화한 후 다시 지도정보와 연동하고, API를 만들어 제공하거나 SDK로 제공하게 된다”고 설명했다.

그는 “이런 전체 과정을 플랫폼 차원에서 기획하고 준비하지 않는 한 서비스를 만들어도 이후 새로운 유형의 데이터가 증가하거나 이용자가 늘어나면 대응하기 어렵다”며 “여기 AI까지 들어가면 전체 설계를 다시 하는 문제도 생기므로 플랫폼 차원에서 빠르게 해결해야 한다”고 말했다.

글. 바이라인네트워크

<김우용 기자>yong2@byline.network

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.