
스노우플레이크와 데이터브릭스가 연례 사용자 컨퍼런스를 이달 첫주와 둘째주 연이어 같은 장소에서 개최했다. 매년 샌프란시스코 모스콘센터에서 연달아 행사를 개최하고 있는데 상호 견제가 치열하다.
스노우플레이크는 지난 2일부터 5일까지 연례 컨퍼런스 ‘스노우플레이크서밋2025’를 개최했다. 데이터브릭스는 9일부터 12일까지 ‘데이터+AI 서밋 2025’ 컨퍼런스를 개최했다. 행사 장소는 동일하다.
작년 행사에서 개방형 테이블 포맷 ‘아파치 아이스버그’를 둘러싸고 견제구를 던졌던 두 회사다. 스노우플레이크는 아이스버그 테이블 혼용과 통합을 개선하는 폴라리스 카탈로그를 선보이고, 데이터 거버넌스 통합을 강조했다. 그 다음주 데이터브릭스는 행사와 함께 아이스버그 창시자가 창업한 ‘타블라’를 인수했다. 기업용 데이터레이크 구축 시장에서 스노우플레이크가 아이스버그에 투자하는 동안 데이터브릭스는 델타레이크란 독자 기술에 투자했었다. 아이스버그와 델타레이크는 스노우플레이크와 데이터브릭스를 구분짓는 차별점이었는데, 데이터브릭스가 아이스버그 지원을 공식화하면서 두 회사의 경계선이 흐려졌다.
그전에도 스노우플레이크와 데이터브릭스는 자체 대형언어모델(LLM)을 선보이면서 서로를 견제했다.
올해 두 회사가 연이어 개최한 행사에서도 겹치는 영역이 많았다. 우선 기업의 AI 에이전트 구축 및 활용에 대한 부분이다. 특히 기업 내외부의 다양한 데이터 소스를 자사 데이터플랫폼으로 가져오고, AI 모델에 기업 맥락을 인식시키는 부분에서 겹친다. 궁극적으로 데이터 민주화로 동일한 초점을 맞추고 있다. 스노우플레이크나 데이터브릭스나 결과적으로 강조하는 부분은 ‘데이터 민주화’다. SQL에 익숙한 데이터 분석가나, 파이썬에 익숙한 개발자 혹은 데이터 사이언티스트, 일반 코드에 익숙한 데이터 엔지니어, 그리고 비 전문가의 데이터 활용을 더 지원하겠다는 것이다.
SQL을 몰라도 자연어로 데이터를 조회하고 분석하게 한다든지, 코드 입력없이 데이터 파이프라인을 구축한다든지, 어떤 배경 지식을 갖고 있더라도 보유한 도메인 지식을 지렛대 삼아 데이터 기반 의사결정을 할 수 있게 지원한다는 게 두 회사의 공통 메시지다.
그를 위해 정형, 비정형 등 유형에 상관없이 데이터를 쉽고 빠르게 가져오고, 데이터 플랫폼 상에서 AI 모델을 학습시키거나 운영하면서, 다양한 AI 에이전트를 쉽고 다양하게 구축해 운영하게 하는 일련의 고속도로를 구축하고 있다.
AI 에이전트로 원료 주입, 데이터 ETL 개선
스노우플레이크는 다양한 데이터 소스를 손쉽게 가져올 수 있는 기술로 ‘아파치 나이파이’ 기반의 ‘오픈플로우’를 선보였다. 오픈플로우는 기업 내부에 구축된 사내 업무용 애플리케이션, 마이크로소프트 셰어포인트, 구글 드라이브, 퍼블릭 클라우드의 가상프라이빗센터(VPC) 내 시스템 등의 데이터를 스노우플레이크 플랫폼으로 쉽게 가져올 수 있게 한다.
정형, 비정형의 멀티모달 데이터를 스노우플레이크로 쉽게 통합하고 연결한다. 시스템 간 데이터 흐름을 자동화해 데이터 엔지니어는 몇 분 만에 커스텀 커넥터를 생성하고 스노우플레이크의 관리형 플랫폼에서 실행할 수 있다.
수백 개의 사전 구축된 커넥터와 프로세서를 기반으로 박스, 구글애즈, 프루프포인트, 서비스나우, 워크데이, 젠데스크 등 타사 데이터 소스는 물론, 클라우드 오브젝트 스토리지와 메시징 플랫폼 등 여러 목적지 간의 통합을 간편하고 빠르게 구현할 수 있다. 정형, 비정형, 배치, 스트리밍 데이터 등 모든 데이터를 지원한다. 특히 오라클 데이터베이스에서 변경데이터캡처(CDC)로 스노우플레이크에 가져올 수 있다.
정형 데이터를 스노우플레이크로 가져오는 ‘스노우파이프’도 업그레이드됐다. 러스트 언어로 구축된 스노우파이프 스트리밍을 활용해 오픈플로우에서 초당 최대 10GB의 스트리밍 데이터를 수집하고, 5-10초 내에 쿼리 가능한 상태로 전환하는 초저지연 처리 성능을 제공한다. 이를 통해 스트리밍 기반 실시간 데이터 처리 환경에서도 강력한 성능을 확보할 수 있다.
스노우플레이크는 자사의 자동화 및 관리형 서비스와 대표적인 오픈소스 데이터 변환 워크플로우 도구 ‘dbt(data build tool)’를 결합해 고객이 dbt프로젝트를 스노우플레이크 내에서 직접 구축, 실행, 관리할 수 있도록 지원한다. 이를 통해 고객은 인프라 유지보수에 대한 부담 없이 분석 인사이트 도출에 집중할 수 있다. dbt프로젝트는 ‘스노우플레이크 워크스페이스’라는 새로운 파일 기반 개발 환경 내에서 제공되며, AI 코파일럿 기반 코드 추천, 네이티브 깃 통합, 시각적 코드 변경 비교 등의 기능을 포함한다.
데이터브릭스는 레이크플로우 디자이너를 공개했다. 노코드 ETL로 설명되는 이 기능은 코드 개발없이 데이터 파이프라인을 구축하게 해주는 기능이다. 드로그앤 드롭 방식과 생성형 AI 도우미를 활용하게 한다. 레이크플로우 디자이너는 레이크플로우, 유니티 카탈로그, 데이터브릭스 어시스턴트 등을 기반으로 설계됐다.
데이터브릭스의 통합 데이터 파이프라인 솔루션인 ‘레이크플로우’는 정식으로 출시됐다. 데이터 엔지니어링을 하나의 솔루션에서 할 수 있다고 한다. 선언형 파이프라인 기능을 통해 SQL이나 파이썬만 활용해 데이터 파이프라인을 구축할 수 있다. 레이크플로우 커넥트를 통해 구글애널리틱스, 서비스나우, SQL서버, 셰어포인트, 포스트그레SQL, SFTP 등의 커넥터를 이용할 수 있다.
대규모 스트리밍 이벤트 데이터를 레이크하우스에 별도 인프라 없이 담을 수 잇는 서버리스 인프라 ‘제로버스’도 선보였다. IoT 이벤트, 클릭스트림, 텔레메트리 등 이벤트 기반 워크로드에서 확장 가능한 고성능 처리를 가능하게 한다.
AI 에이전트 활용과 배포를 쉽게
스노우플레이크의 생성형 AI 솔루션인 코텍스 AI는 ‘코텍스 오케스트레이션’을 제공하게 됐다. 이 기능을 통해 코텍스 AI가 멀티 AI 에이전트의 활동을 조율할 수 있게 됐다.
또한 코텍스 날리지 익스텐션이란 기능을 통해 실시간 뉴스와 연구보고서를 AI 에이전트에서 RAG와 함께 홯용할 수 있다.
스노우플레이크 코텍스 에이전트 API를 참조해 작업을 자동화하는 에이전트 앱을 스노우플레이크 플랫폼 네이티브 앱으로 만들 수 있게 됐다. 개발한 에이전틱 네이티브 앱은 스노우플레이크 마켓플레이스를 통해 배포, 제공할 수 있다.
데이터브릭스는 AI 에이전트를 쉽게 구축, 생성할 수 있는 ‘에이전트 브릭스’란 솔루션을 공개했다. 사용자가 에이전트의 수행 작업에 대해 설명하고 기업 데이터를 연결하면 자동으로 에이전트를 생성해준다. 이 솔루션은 도메인 특화형 합성 데이터와 작업 인지형 벤치마크를 자동으로 생성하고, 에이전트의 활동과 품질을 평가한다.
AI 개발 프레임워크인 ‘MLflow 3.0’도 공개했다. MLflow 3.0은 머신러닝 모델과 생성형 AI 애플리케이션의 전체 수명주기를 통합 관리하는 플랫폼으로, 생성형 AI에 맞춰 완전히 새롭게 설계됐다. MLflow 3.0을 통해 사용자는 모든 플랫폼에서 호스팅되는 AI 에이전트를 모니터링하고 추적 및 최적화할 수 있으며, 통합된 프롬프트 관리, 품질 지표, 인적 피드백 및 LLM 기반 평가 기능을 활용해 다양한 환경에서 AI 에이전트의 성능을 시각화, 비교, 디버깅할 수 있다. MLflow 추적 및 평가 결과를 기존 데이터 레이크하우스와 통합할 수 있다.
같은 듯 다른 듯 포스트그레SQL 끌어안기
데이터브릭스는 행사에 앞서 지난달 포스트그레SQL 서비스기업 ‘네온’을 인수했다. 그리고 지난 행사에서 네온 기반의 운영 데이터베이스 서비스 ‘레이크베이스’를 공개했다.
레이크베이스는 데이터브릭스의 레이크하우스 플랫폼에 운영 데이터베이스를 통합하며, 멀티 클라우드 플랫폼에서 데이터 애플리케이션과 AI 에이전트를 구축하게 한다. 레이크베이스는 레이크하우스 테이블과 데이터를 자동으로 동기화한다. 모델 제공을 위한 온라인 피처 스토어도 제공하며, 데이터브릭스 앱 및 유니티 카탈로그와 통합됐다.
데이터브릭스는 포스트그레SQL을 AI 에이전트 운영을 위한 데이터베이스로 강조했다.
스노우플레이크도 포스트그레SQL 기업 인수를 지난 행사에서 발표했다. 스노우플레이크는 포스트그레SQL 기업인 ‘크런치데이터’를 인수한다고 밝혔다.
스노우플레이크는 크런치데이터를 자사 AI 데이터 클라우드 플랫폼에 통합하고, ‘스노우플레이크 포스트그레스’로 제공할 예정이다. 이를 통해 개발자는 포스트그레스의 모든 기능을 활용하면서 미션크리티컬 AI 애플리케이션을 구축하고 실행하는 데 필요한 엄격한 거버넌스, 보안, 운영 표준 등을 제공받을 수 있게 된다.
스노우플레이크는 AI 에이전트보다 기존 운영 데이터베이스 시장을 고려한 입장을 취했다. 마이SQL이나 포스트그레SQL 같은 오픈소스 데이터베이스로 IT서비스를 구축하는 시장을 겨냥한다. 또한 강력한 규제를 준수해야 하는 시장이나 인터넷 연결없는 환경에서 데이터를 활용해야 하는 에어갭 시나리오에서 단독의 포스트그레SQL 서비스를 제공할 수도 있다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network