“데이터브릭스에 데이터를 모아라. 거기 AI도 있다”

2025-04-29

“기업의 AI 도전이 성공하려면 스택의 단순화를 추구해야 한다. 데이터를 직접 소유하고, 개방형 형식으로 준비한 뒤, 통합적인 데이터 카탈로그로 거버넌스를 확보해 AI 모델을 가져오면 단순화를 실현할 수 있다.”

닉 에어스 데이터브릭스 아태지역 필드 엔지니어링 담당 부사장은 데이터브릭스코리아가 29일 개최한 연례 행사 ‘데이터 인텔리전스 데이’ 기조연설에서 이같이 밝혔다.

닉 에어스 부사장은 “모든 기업이 데이터 및 AI 기업이 되고자 지난 몇년동안 데이터와 AI를 회사에 도입해 제품과 서비스를 차별화할 수 있는 방법을 알아내려고 노력중이지만 모두가 성공을 거두는 것은 아니”라며 “데이터를 수집하고 활용하는 과정이 복잡하기 때문”이라고 말했다.

기업은 수많은 데이터 시스템을 갖고 있다. 예전에 구축된 시스템, 레거시 데이터베이스, 보안 관리 시스템, 데이터 시각화 시스템 등이 조직 안에 분산돼 있다. 이렇게 분산된 환경에서 데이터를 활용하려면 각시스템에서 데이터를 확보하고 분석할 수 있는 형태로 다듬어야 한다. 데이터 수집과 준비 과정을 거쳐 분석이나 AI 학습 및 추론 등에서 활용하기까지 매끄럽고 원활한 데이터 파이프라인을 구축하기란 쉽지 않다. 시스템이 많아지고, 분산될수록 파이프라인 구성의 복잡성은 더 커진다.

데이터브릭스는 데이터레이크하우스 콘셉트를 강조해온 회사로, 기업의 모든 데이터를 하나의 저장소에 모으고 그 토대 위에서 활용할 것을 강조한다.

닉 에어스 부사장은 “데이터브릭스는 기업을 위해 데이터 복잡성을 단순화할 수 있도록 지원하고 있다”며 “전체 스택을 근본적으로 단순화하므로 많은 분산 데이터를 관리하는 복잡성을 걱정하지 않아도 된다”고 말했다.

그는 “복잡한 데이터 자산을 단순화하려면 먼저 데이터를 직접 소유하고, 그 데이터를 개방형 데이터 형식으로 효과적이고 효율적으로 소유해야 한다”며 “그래야 다양한 시스템에서 데이터의 상호운용성을 확보하고, 여러 클라우드로 이동시킬 수 있는 이식성을 확보할 수 있다”고 설명했다.

데이터브릭스 데이터 인텔리전스 플랫폼은 고객 데이터와 비즈니스 특성에 맞게 조정된 AI 모델을 결합해 분석 및 지능형 애플리케이션에 대한 접근을 보편화한다. 이 데이터 인텔리전스 플랫폼은 개방형 데이터 형식과 거버넌스를 기반으로 한 레이크하우스 아키텍처 위에 구축되어, 고객이 모든 데이터를 완전히 통제할 수 있도록 한다.

데이터브릭스는 아이스버그, 델테레이크, 파케이 등 개방형 데이터 형식을 지원하고 있다. 그리고 데이터 카탈로그로 ‘유니티 카탈로그’를 제공한다.

닉 에어스 부사장은 “개방형 형식으로 확보한 데이터세트는 빠른 검색과 실사례 추진을 위해 적절한 데이터 카탈로그를 선택해 거버넌스를 갖춰야 한다”며 “그는 “전통적인 카탈로그는 테이블 형식의 데이터만 다루지만, 데이터브릭스의 유니티 카탈로그는 데이터 관리 수명주기 전반에서 전체 자산의 거버넌스를 관리할 수 있게 한다”고 설명했다.

데이터브릭스, 스노우플레이크 등 데이터 플랫폼 회사는 생성형 AI 모델을 기업에서 활용하려면 데이터를 이동시키지 말고, 모델을 이동시키라고 제안한다. 모델을 데이터 플랫폼 상에 가져와 활용하면 데이터를 안정적이고 안전하게 AI에 주입할 수 있다는 것이다.

데이터브릭스는 데이터 플랫폼에 생성형 AI 기능을 투입해 자연어로 데이터를 다룰 수 있게 한다. 자연어 쿼리로 간단히 조회하고 인사이트를 받거나 시각화할 수 있다. 코딩에 익숙한 전문 사용자뿐 아니라 코딩을 다룰 줄 모르는 비즈니스 사용자도 자유롭게 데이터를 활용하고 AI를 활용할 수 있게 된다.

데이터브릭스는 레이크플로우란 데이터 수집 도구를 제공한다. 레이크플로우는 자동화되고 지능형의 데이터 파이프라인을 안정적으로 구축해 다양한 시스템에 접속해 데이터를 수집해온다. 데이터브릭스는 다양한 시스템마다 커넥터를 제공하고 있다.

최근 데이터브릭스는 SAP와 파트너십을 체결하고, SAP 비즈니스 데이터 클라우드에 데이터브릭스 플랫폼을 통합시켰다. 이에 따라 SAP 비즈니스 데이터 클라우드 사용자는 ERP를 비롯한 업무용 시스템의 데이터를 복제와 이동 과정 없이 바로 데이터브릭스 상에서 활용하고, AI를 개발 배포할 수 있다.

에어스 부사장은 고객사례로 금융 정보 서비스 회사인 ‘팩트셋(Factset)’을 소개했다. 팩트셋은 금융 서비스 고객에게 데이터를 조회할 때 ‘팩트셋쿼리언어(FQL)’란 방법을 활용하게 하는데, 더 많은 사용자가 데이터를 쉽게 활용할 수 있게 자연어를 FQL로 변환해주는 생성형 AI를 구축했다. 처음 GPT4 기반 어시스턴트를 만들었지만, 정확도가 59%였고, 지연시간은 15초였다. AI 모델이 팩트셋의 내부 데이터에 접근하지 못해 생긴 문제였다. 이를 위해 데이터브릭스는 4개의 에이전트를 추가로 사용하는 방식을 제안했다. 사용자의 질문을 각 AI 에이전트가 순차적으로 해결하면서 최종적으로 우수한 결과를 제공하게 한 것이다. 이로써 정확도는 85%로 향상됐고, 지연시간도 6초로 줄었다고 한다.

준타 나카이 데이터브릭스 금융서비스부문 글로벌 부사장은 “한국은 그동안 중국 다음으로 높은 인구대비 생산성을 보여온 나라지만, 최근 출산율 감소로 인한 인구통계학적 위기를 맞고 있다”며 “이런 가운데 한국이 높은 생산성 향상을 유지하면서, 주식 시장 가치를 세계 평균치로 키울 수 있다면 2조5000억달러에 달하는 경제적 효과를 창출할 수 있다”고 말했다.

그는 “AI는 인류가 가진 매우 강력한 생산성 견인 도구”라며 “데이터브릭스는 산업별도 도출된 실제 고객사례를 반복 사용할 수 있는 워크로드로 제공하므로, 이 도구로 AI를 보편솨시켜 생산성을 높이고 인구통계학적 위기를 잘 극복할 수 있을 것”이라고 강조했다.

정우진 KT 전략-사업 컨설팅 부문장은 “KT는 데이터브릭스와 함께 AI 엔지니어링 역량을 쌓아가고 있다”며 “데이터 파이프라인 체계와 AI옵스, 미세조정 등에서 데이터브릭스의 우수한 기능과 역량을 활용하고, 내부의 AI 전환과 대외 사업에 활용되는 AI옵스 체계를 마련하고 있다”고 밝혔다.

강형준 데이터브릭스코리아 대표는 인사말에서 “지난 회계연도에 한국에서 전년 대비 연간 100% 이상의 성장을 달성했”며 “앞으로도 한국 기업들이 자사의 안전하고 프라이빗한 데이터를 활용해 AI의 잠재력을 최대한 실현할 수 있도록 적극 지원할 것”이라고 강조했다.

글. 바이라인네트워크

<김우용 기자>yong2@byline.network

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.