지난 2일부터 5일까지 스노우플레이크의 연례 사용자 컨퍼런스 ‘스노우플레이크서밋2025’가 열렸다. 올해 행사에서 차세대 데이터웨어하우스, 새 데이터 파이프라인, AI 에이전트 오케스트레이션, 생성형 AI를 활용한 SQL과 마이그레이션 도구, AI 레디 데이터 공유, 데이터 사이언스 에이전트 및 AI 에이전트 오케스트레이션, 대화형 데이터 분석 서비스 등 플랫폼 내외부를 망라하는 새 기술을 대거 선보였다. 빈 공간으로 남겨왔던 운영계 데이터베이스 분야도 포스트그레SQL 기업을 인수해 채웠다.
올해 행사를 통해 스노우플레이크는 AI와 데이터를 위한 플랫폼으로서 완성형에 다가가는 행보를 보여줬다. 기업 내외부에서 발생하는 다양한 데이터를 쉽게 가져오는 것부터, 데이터를 AI와 에이전트에서 적절하게 활용하게 하는 방법, 기업 분석가의 데이터 활용 방법까지 생성형 AI 시대에 고객이 직면한 어려움을 해소하려는 움직임이었다.
스노우플레이크는 대형 발표를 제외하고 100여개의 기능을 새롭게 선보였다. 지난 일주일 스노우플레이크서밋2025에서 발표된 내용 중 핵심 요소를 정리한다.
‘AI 레디 데이터’ 시맨틱 뷰
스노우플레이크는 기업의 데이터세트에 맥락을 설명하는 시맨틱 계층을 조직 내외부에서 공통으로 활용할 수 있는 방법을 선보였다.
시맨틱 모델 공유란 이름의 이 기능은 정형 데이터의 스키마 디스크립션을 스노우플레이크 마켓플레이스를 통해 공유할 수 있는 기능이다.
오픈AI 챗GPT, 앤트로픽 클로드, 메타 라마 같은 대형언어모델(LLM)은 인터넷에 공개된 데이터를 방대하게 학습해 일반적 질문에 꽤 정확한 답변을 제공할 수 있다. 문제는 기업 비즈니스 특성을 담은 특수한 맥락을 가진 질문에 정확하게 답변할 수 없다는 점이다. 기업 내부 데이터를 학습하지 않은 탓이 가장 크고, 이를 위해 내부 데이터를 벡터화해 검색증강생성(RAG)으로 LLM에 연결하는 게 일반적인 방법이다.
문제는 RAG를 이용한다고 해도 비즈니스 맥락을 제대로 이해하도록 만드는 작업이 매우 까다롭다는 것이다. 여러 이유가 있지만, LLM이 기업 데이터에서 맥락을 포착하지 못하는 게 크다.

기업이 데이터를 만들 때 사용자나 부서에 따라 표현이 제각각이다. 예를 들어 기업 이름을 쓰는 방식이 ‘페이스북’, ‘페북’, ‘FB’. ‘Facebook’, ‘메타’ 등으로 다양하다. LLM이 각 필드 값에서 같은 맥락이란 것을 인식해야 하는데, 그러자면 스키마 디스크립션이 충실하고 꼼꼼하게 작성돼 있어야 한다.
제프 홀란 스노우플레이크 코텍스AI&앱스 헤드는 간담회에서 “데이터세트에 페이스북과 메타란 두 종류의 표현을 사람은 같은 것으로 인식하지만 AI는 다르게 인식할 수 있다”며 “그럼 여러 테이블에서 페이스북이란 값으로 조회할 때 메타라 표기된 테이블은 조인하지 않을 것이고 생성 답변이 부정확해진다”고 설명했다.
문제는 데이터를 AI에게 설명하는 이 작업이 너무 번거롭고 힘들다는 점이다. 각 데이터세트마다 디스크립션을 달아줘야 하고, 데이터 통합 관리를 제대로 하지 않았다면 어마어마한 양을 다뤄야 한다. ERP, CRM, HR 등등 애플리케이션, 웹서버 데이터베이스 등 각각의 시맨틱을 만들어야 한다.
스노우플레이크는 작년 YAML 파일로 시맨틱을 만들 수 있는 기능을 출시했다. 올해 UI 기반에서 시맨틱을 만들게 개선돼 시맨틱 생성이 더 쉬워졌다. 무엇보다 시맨틱을 기업 조직 내부에서 재활용하는 게 더 간단해졌다. 시맨틱 뷰를 만들어서 데이터세트와 함께 마켓플레이스에 공유하게 하면 데이터세트마다 따로 시맨틱을 만들 지 않아도 되기 때문이다.
시맨틱 공유는 데이터세트를 스노우플레이크 마켓플레이스에서 제공, 판매하는 기업과, 그 데이터세트를 구매하는 기업 모두에게 이득이다. 생성형 AI와 AI 에이전트를 비즈니스 용도로 구축하려는 기업이라면 정확한 시맨틱 뷰를 담은 데이터세트를 확보해서 데이터 자산화의 지난한 과정을 생략하고 AI 전략 이행에 돌입할 수 있다. 기업의 AI는 환각을 줄이고, 더 정확한 답변과 행동을 제공할 수 있다.
크리스티안 클라이너만 스노우플레이크 제품 총괄부사장은 “우리가 주장하는 AI 레디 데이터 개념은 비정형과 정형 데이터에 대한 AI 레디 데이터를 의미한다”며 “시맨틱 모델을 큐레이팅하는 것은 현실적인 문제이지만, 어떤 경우에는 시맨틱 모델은 문서화 시스템에 내장돼 있고, 많은 장소, 카탈로그에 포함돼 있다”고 말했다.
그는 “그렇게 큐레이팅하고 또 큐레이팅하는 대신 한 번만 하면 여러 도구에서 활용할 수 있게 된다”고 설명했다.
오픈플로우와 데이터 파이프라인
LLM과 AI 에이전트의 성능과 정확성을 높이는 여러 방법 중 하나는 다양한 데이터를 집어넣는 것이다. 징형 데이터의 정확성을 높이는 시맨틱 뷰를 확보하는 것과 함께 다양한 데이터 생산지에서 스노우플레이크로 데이터를 가져오는 게 필요하다.
이런 작업은 데이터 인제스천이라 불린다. 다양한 데이터 추출, 변환, 적재(ETL) 툴이 여전히 활용되며, 데이터 소스에서 스노우플레이크로 이어지는 데이터 파이프라인이 탄탄해야 최종적으로 AI의 학습 자료가 늘어날 수 있다.
데이터 파이프라인이 다양한 건 당연하다. 기업 내부에 구축된 사내 업무용 애플리케이션, 마이크로소프트 셰어포인트, 구글 드라이브, 퍼블릭 클라우드의 가상프라이빗센터(VPC) 내 시스템에 이르기까지 가져올 데이터는 많은데, 각기 ETL을 구축하고 유지하는 게 엄청난 고통을 수반한다.

스노우플레이크 오픈플로우는 이처럼 다양한 데이터 소스로부터 데이터를 쉽게 가져오는 파이프라인으로 등장했다. 스노우플레이크 오픈플로는 아파치 나이파이 프로젝트에 기반한 제품으로 정형, 비정형의 멀티모달 데이터를 스노우플레이크로 쉽게 통합하고 연결한다. 시스템 간 데이터 흐름을 자동화해 데이터 엔지니어는 몇 분 만에 커스텀 커넥터를 생성하고 스노우플레이크의 관리형 플랫폼에서 실행할 수 있다.
수백 개의 사전 구축된 커넥터와 프로세서를 기반으로 박스, 구글애즈, 프루프포인트, 서비스나우, 워크데이, 젠데스크 등 타사 데이터 소스는 물론, 클라우드 오브젝트 스토리지와 메시징 플랫폼 등 여러 목적지 간의 통합을 간편하고 빠르게 구현할 수 있다. 정형, 비정형, 배치, 스트리밍 데이터 등 모든 데이터를 지원한다. 특히 오라클 데이터베이스에서 변경데이터캡처(CDC)로 스노우플레이크에 가져올 수 있다.
오픈플로우로 가져온 데이터는 아마존웹서비스(AWS)의 아마존 S3나 아이스버그 테이블 등 어디에도 저장할 수 있다. 저장된 데이터는 스노우플레이크의 폴라리스 카탈로그를 통해 쉽게 활용할 수 있다.
SQL로 비정형 데이터까지, 코텍스 AISQL
정형 데이터의 시맨틱 계층의 수고를 덜었다고 모든 게 해결되진 않는다. 기업이 분석해야 하는 데이터는 정형과 비정형 데이터 모두란 것이다. 비정형 데이터도 엄청난 규모로 증가하고 있지만, 정형 데이터도 적지 않다. 이와 더불어 데이터를 다루고자 하는 기업 내부 구성원의 유형도 다양해지고 늘어나고 있다는 것이다.
데이터 주도형 의사결정이라고 할 때 모든 기업 내부 구성원이 동일한 데이터와 동일한 맥락에서 분석할 수 있어야 한다. 그러나 구성원 간의 분석 역량에 차이가 있다. 분석 전문가라면 SQL에 익숙할 것이고, 일부는 파이썬에 익숙할 수 있다. 그리고 더 많은 사람은 SQL도 파이썬도 다룰 줄 모른다.
스노우플레이크가 선보인 코텍스 AISQL은 SQL을 활용해 정형 데이터뿐 아니라 비정형 데이터도 분석하게 해주는 기능이다. 생성형 AI 기술을 활용해서 분석가가 입력한 SQL로 비정형 데이터까지 조회하고 통합해 분석하게 해준다. 숫자 기반 행과 열뿐만 아니라 텍스트, 이미지, 오디오 등 다양한 데이터 유형을 자유롭게 질의할 수 있다.

스노우플레이크 칼 페리 애널리틱스 부문 총괄은 “AISQL을 통해 원시 비정형 데이터를 정형 데이터와 조인하는 방법에 대해 걱정할 필요가 없다”고 강조했다.
코텍스 AISQL은 현재 애그리게이션, 조인, 필터, AI 컴플리트 등의 기능을 제공하고, 향후 더 다양한 기능을 지원할 예정이다.
DBT 호스팅
기업의 데이터 엔지니어는 다양한 소스로부터 가져온(E) 데이터를 적재(L)하기에 앞서 플랫폼에 최적화된 형태로 변환(T)해야 한다. 정규화된 SQL 포맷으로 변환하는 작업인데 이 과정이 ETL에서 상당한 수작업을 요한다.
데이터 변환 작업을 손쉽게 해주는 오픈소스 프로젝트로 ‘데이터빌드툴(DBT)’이 있다. 영어로만 제공하는 탓에 국내엔 덜 알려졌지만, 영미권에서 DBT는 데이터 변환에서 가장 널리 쓰이는 도구다.
오픈소스 DBT 프로젝트를 주도하고, 기업용으로 호스팅 서비스를 제공하는 회사가 ‘DBT랩’이다. DBT랩은 오픈소스 에디션 외에 엔터프라이즈 에디션을 제공하며, 곧 클라우드 전용 에디션인 ‘DBT 퓨전’을 출시할 예정이다.
스노우플레이크는 그동안 데이터 변환에 DBT를 사용하려는 고객에게 DBT랩의 서비스를 연동하는 방식으로 지원해왔다. 이제 스노우플레이크는 플랫폼 자체적으로 DBT를 호스팅해 제공한다. 향후 출시될 DBT퓨전도 스노우플레이크 내부에서 바로 활용할 수 있다.
크리스 차일드 스노우플레이크 데이터엔지니어링&오픈레이크하우스 부사장은 “DBT를 간단히 설명하면, 템플릿에 SQL을 작성하면 테이블 이름을 참조 한 다음 나중에 변경할 수 있게 해주는 툴”이라며 “간단한 방법으로 복잡한 데이터 파이프라인을 구축한 다음 테이블에서 실행되는 SQL로 컴파일 할 수 있고, 매우 복잡한 파이프라인을 훨씬 쉽게 관리할 수 있게 해 인기있는 도구”라고 설명했다.
그는 “이제 스노우플레이크 워크스페이스란 도구에서 UI를 통해 SQL과 비슷하지만 더 템플릿화된 DBT 코드를 작성하고, 컴파일하고, 테스트하고, 실행한 다음 실제로 배포할 수 있게 됐다”며 “다른 도구 없이 스노우플레이크 내에서 일정에 따라 실행하도록 할 수 있다”고 덧붙였다.
스노우플레이크 인텔리전스
스노우플레이크서밋2025의 두번째날 기조연설은 새로운 제품을 연이어 소개하는 자리였다. 90분 넘게 이어진 발표에서 스노우플레이크는 데이터를 다양한 곳에서 가져오고, 더 빠르게 분석하며, 더 저렴하게 활용할 수 있는 기술적 방안을 소개했다. 이어서 데이터를 활용해서 AI를 구축하고 에이전트를 만드는 방안을 소개했다. 요약하면 정형 및 비정형 데이터를 마음껏 가져와서 스노우플레이크 플랫폼에 넣은 뒤 코텍스 AI란 기술을 활용해 기업용 AI 에이전트를 만들 수 있다는 것이다. 스노우플레이크 호라이즌이란 데이터 거버넌스 플랫폼이 기본적으로 내장돼 활용되므로 AI 안전도 담보할 수 있다는 설명도 강조했다.
코텍스 AI는 정형 데이터에 접근하는 ‘코텍스 애널리스트’와 비정형 데이터에 접근하는 ‘코텍스 서치’로 나뉜다. 자연어 대화형 인터페이스에서 사람의 언어나 SQL문으로 질문을 던지면 정형 데이터와 비정형 데이터 양쪽에서 질문의 맥락에 가장 적합한 답변 소스를 찾아내 콘텐츠를 생성해준다.

만약에 스노우플레이크 플랫폼 안의 데이터만으로 AI가 충분한 답을 해줄 수 없는 경우 웹 상의 데이터도 자동으로 가져올 수 있다. ‘코텍스 널리지 익스텐션’이란 기능을 이용해서 웹상의 뉴스 기사나 연구 보고서, 논문 등을 가져와 답변을 증강할 수 있다.
고객이 직접 내부 데이터를 활용하기 위한 데이터 에이전트를 구축할 수 있지만, 스노우플레이크는 그 단계조차 건너 뛰고 싶어하는 기업을 위해 모든 내부 구성요소를 활용해 구축한 완성형 대화형 분석 인터페이스를 선보였다. ‘스노우플레이크 인텔리전스’다. 실제로 이 발표가 기조연설의 맨 마지막에 나왔다.
앞서 설명한 코텍스AI의 기능과 오픈플로우, DBT, 시맨틱 뷰 등을 활용하고, 데이터 사이언스 에이전트를 비롯한 서브 에이전트들을 통합한 서비스다. 기업은 대화형 인터페이스에서 기업 내외부 데이터를 쉽게 조회하고 분석할 수 있다.
그동안 저장과 처리만 담당하던 스노우플레이크는 ‘인텔리전스’를 제공함으로써 하나의 완성된 데이터 분석 플랫폼으로 변신한다. AI 에이전트가 사용자의 질문에 정형이든 비정형이든 가장 적합한 데이터를 찾아서 가져온다. 데이터 시각화 에이전트를 알아서 작동시켜서 대시보드도 만들어준다. 분석 결과를 공유하는 작업도 대신 해준다.
슈리다 라마스워미 스노우플레이크 최고경영자(CEO)는 “스노우플레이크는 가장 신뢰할 수 있는 분석 플랫폼이라는 명성을 쌓아 왔으며, 가장 가치 있는 정보를 BI 도구나 데이터 분석가를 거치지 않고 비즈니스 사용자에게 더 빠르게 제공하게 됐다”며 “우리는 제품의 단순성, 사용 용이성, 신뢰성이라는 기본 원칙에 따라 작업을 수행하며, 이것은 장기적인 차별화 요소”라고 강조했다.
실리콘밸리 AI 허브
스노우플레이크는 올해 행사에서 새롭게 건립한 사옥 내에 ‘실리콘밸리 AI 허브’를 설립한다고 발표했다. 캘리포니아주 베이에어리어 일대의 AI 스타트업이 입주할 수 있는 사무 공간이면서, 스노우플레이크로부터 자본 투자와 기술지원, 각종 인큐베이팅 지원을 받을 수 있는 공간이다.
스노우플레이크가 직접 AI 스타트업을 육성하겠다는 것이다. 스노우플레이크는 2500만달러를 투자해 사무공간을 제공하고 다양한 프로그램과 투자 연결 지원 등을 제공할 계획이다.
이는 호주 캔바의 사례를 미국 서부 일대에서 본격적으로 실시하는 것이다. 호주의 스타트업 캔바는 디자인 저작도구 서비스를 제공하고 있는데, 전세계에 2억3000만 월간활성사용자(MAU)를 기록할 정도로 성공했다. 캔바는 아직 비상장사지만 향후 기업공개(IPO) 시 호주 증권시장에서 시가총액 1위로 단숨에 올라설 것으로 기대되고 있다.
캔바는 초기부터 스노우플레이크를 활용해 데이터 플랫폼을 구축하고 사업에 활용했다. 스노우플레이크는 작게 시작한 고객의 급격한 성장을 지원함으로써 거대한 빅테크 고객을 갖게 됐다.

스타트업 육성을 비롯해 스노우플레이크는 전세계 기업을 대상으로 데이터 관련 사업을 영위할 수 있는 플랫폼으로 진화하고 있다. 기업이 일단 스노우플레이크란 플랫폼에 진입하면, 수많은 파트너는 스노우플레이스 마켓플레이스를 통해 해당 기업에게 다양한 상품을 판매할 수 있다. 데이터 셰어링을 활용한 데이터세트 판매 같은 단순한 비즈니스만 가능한 게 아니다. 스노우플레이크 플랫폼에 통합된 상태로 동작하는 애플리케이션을 ‘네이티브 앱’이란 이름으로 제공할 수도 있다.
대표적 사례가 ‘시그마(Sigma)’란 기업이다. ‘무제한 스프레드시트 분석’이란 야심으로 출발한 이 회사는 스노우플레이크 플랫폼의 강력한 컴퓨팅 성능을 활용해서 수백만 라인의 스프레드 시트도 빠르게 분석하고 시각화할 수 있는 ‘비즈니스 인텔리전스(BI)’ 도구를 제공하고 있다. SQL이나 파이썬을 활용하지 못하지만, 엑셀 형식에 익숙한 무수한 비즈니스 이용자를 대상으로 용량에 구애받지 않고 데이터를 활용하게 해주고 있다. 시그마는 수십억개 레코드의 데이터베이스도 분석할 수 있고, 데이터 소스를 그대로 유지하면서 대시보드, 보고서, 워크플로 및 앱을 구축하게 해준다. 시그마는 작년까지 4년 연속으로 매년 100% 매출 성장이란 기록을 세웠으며, 현재 기업 가치는 15억달러로 평가된다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network