
[인터뷰] 최용민 미래에셋자산운용 AI솔루션본부 본부장
“미래에셋자산운용은 글로벌 투자 운용사로서 인공지능(AI)을 어떻게 투자에 활용할 지 오랫동안 고민하고 AI 투자 모델을 개발하는데 투자해왔다. 그런데, 양질의 데이터를 AI 모델에 얼마나 적절하게 잘 공급하느냐로 결과가 완전히 달라진다. 투자 목적에 맞게 관련된 데이터를 잘 정리하고, 이를 적시에 모델로 넣은 흐름이 중요하다. 스노우플레이크는 미래에셋자산운용의 복잡한 데이터 처리 작업을 효율화하는데 큰 도움을 주고 있다.”
미래에셋자산운용의 최용민 AI솔루션본부 본부장(이사)은 최근 <바이라인네트워크>와 인터뷰에서 스노우플레이크 데이터 클라우드 플랫폼을 도입해 AI 투자 모델 개발 작업을 효율화한 사례를 설명하며 이같이 밝혔다.
미래에셋자산운용의 AI 투자 모델 개발을 담당하는 최용민 본부장은 “아무리 좋은 모델이라도 소스가 될만한 데이터와 정보가 없다면 쓸모 없는 것일 정도로 데이터 관리가 중요하고, 그 데이터를 수집, 처리하는 부분은 계속 고민이었다”며 “스노우플레이크가 우리의 기존 방식과 다르게 할 수 있다는 걸 알고 나서 빠른 의사결정을 거쳐 도입했다”고 설명했다.
미래에셋자산운용은 작년 AI 투자 모델 개발을 위한 데이터 아키텍처를 스노우플레이크의 플랫폼으로 전환했다. 스노우플레이크 플랫폼은 회사 내외부 데이터를 AI 투자모델로 흘려넣는 데이터 파이프라인을 지원하고 있다.
투자운용사에게 AI는 낯선 분야가 아니다. 이미 ‘퀀트’란 이름으로 투자를 위한 의사결정에 AI 기술을 오랜 시간 활용해왔다. 전통적인 퀀트는 펀드 매니저의 금융 전문 지식을 바탕으로 정량적인 투자 모델을 활용하는 것이다. 반면 AI 투자 모델은 과거 시장 데이터와 패턴을 AI가 학습해 투자 로직을 만든다. 미래에셋자산운용은 2016년부터 머신러닝과 딥러닝 기반의 AI 프로젝트를 시작했다.
그러나 기존 미래에셋자산운용의 데이터 환경은 비용 부담과 데이터 관리 복잡성 증가, 확장성 부족, 운영 인력 부담 증가, 보안 통제 관리의 어려움 등의 문제점을 드러냈다. 글로벌 AI 비즈니스 확장을 위해서도 데이터 접근성을 개선할 필요가 있었다.

최용민 본부장은 “데이터 처리 작업 중간에 전송 오류나 배치 프로세스 오류 같은 장애 요소가 다양해서 이를 다 관리하고 운영하는 데 부하가 많았다”며 “스노우플레이크를 도입하면서 마켓플레이스에서 데이터 공급업체의 최신 데이터를 바로 공유받아 바로 볼 수 있게 돼 데이터를 전송하는 지연 시간과 처리 시간이 획기적으로 줄었다”고 말했다.
그는 “스노우플레이크로 전환하면서 내부 ETL 프로시저를 어떻게 전환할까 많이 고민했는데, 스노우플레이크가 거의 대부분의 기존 기능을 똑같이 구현해놓고 있어서 문제없이 바로 활용할 수 있었다”고 덧붙였다.
글로벌 투자운용사의 AI 모델에서 주로 활용되는 데이터는 S&P글로벌, 블룸버그, 팩트셋 같은 금융 데이터 회사에서 판매하는 정보다. 투자운용사는 여러 데이터 회사로부터 FTP로 데이터를 받아 사내 서버에 쌓고, 데이터 추출·변환·적재(ETL)를 통해 분석 데이터베이스에 넣은 뒤 여러 차례의 전처리 작업을 거쳐 AI 엔진에 넣게 된다. 여러 단계를 거치면서 어단가에서 오류가 생기면 AI 투자 모델에서 제대로 된 결과를 만들 수 없게 된다.
스노우플레이크는 데이터마켓인 ‘스노우플레이크 마켓플레이스’를 운영하고, ‘데이터 셰어링(Data sharing)’ 기능으로 데이터 공급사와 이용자를 직접 연결한다. 이 마켓플레이스에 입점한 기업은 다양한 데이터 상품을 스노우플레이크 고객에게 직접 전달하고, 이용기업은 SaaS 커넥터를 활용해 복잡한 ETL 프로세스를 거치지 않아도 되고, 항상 최신 데이터를 활용할 수 있다.
최 본부장은 “스노우플레이크에서 제공하는 다양한 기능을 활용하게 되면서 훨씬 더 효율적으로 데이터를 처리할 수 있게 됐다”며 “어떤 배치 작업의 경우 기존에 15시간 걸리던 게 스노우플레이크로 3분 만에 끝나는 등 시간 측면에서 많은 효율성 향상이 있었다”고 밝혔다.
스노우플레이크는 여러 측면에서 효율성을 높였다. 미래에셋자산운용의 AI솔루션본부가 데이터 엔지니어 위주로 구성되다보니 DB 운영에 어려움을 겪었는데, 스노우플레이크 도입으로 본래 업무에 더 집중할 수 있게 됐다.
비용 측면의 이익도 컸다. 클라우드 인프라 서비스는 데이터를 담는 저장 용량만큼 과금한다. 반면, 스노우플레이크는 얼마나 많은 데이터를 저장해두든 상관없이 실제로 데이터를 활용할 때의 연산 자원에만 과금한다.
최 본부장은 “AI 투자 모델의 특성으로 데이터를 여러번 복제해야 하는 상황이 많은데 일반 퍼블릭 클라우드의 서버에 DB를 올리면 스토리지 용량 증가 부담이 크다”며 “데이터를 복제할 때마다 용량이 커지고, 자주 안 쓰는 데이터도 항상 유지해야 해서 부담이었다”고 말했다.
그는 “만약 대고객 서비스에 스노우플레이크를 활용했다면 비용 대비 효과가 적었겠지만, AI 투자모델은 데이터를 활용하는 시간이 많이 써봐야 하루 한번 정도”라며 “특정 배치 작업에 대해서만 컴퓨팅 자원 할당을 크게 늘려서 빠르게 계산하면 연산 시간을 더 줄이게 되고 비용도 줄일 수 있다”고 설명했다.
스노우플레이크는 클라우드 기반 데이터웨어하우스 플랫폼이다. 일반적으로 금융기업은 정부의 엄격한 규제를 받으며, 퍼블릭 클라우드 활용이 제한적이다. 미래에셋자산운용은 금융 규제를 쉽게 돌파할 여건을 갖고 있어서 스노우플레이크 도입을 빠르게 결정할 수 있었다.
최 본부장은 “미래에셋자산운용 같은 자산운용사는 펀드 상품만 관리할 뿐 가입자의 정보를 관리하지 않기 때문에 망분리나 퍼블릭 클라우드에 대한 제약에서 자유로울 수 있었다”며 “이미 전부터 퍼블릭 클라우드를 병행하고 있었기에 스노우플레이크로 넘어가는 허들이 높지 않았다”고 말했다.
그는 “물론 보안과 컴플라이언스는 당연히 중요한 문제이고, 데이터 접근 권한 제어나 방화벽 정책 같은 부분은 필요하다”며 “스노우플레이크에서 이미 국제 규격을 충족하고 있어 크게 문제되지 않았다”고 덧붙였다.

미래에셋자산운용은 스노우플레이크 플랫폼의 다양한 기능을 이용해 데이터 파이프라인 관리를 효율적으로 하고 있다. 최 본부장은 ‘스트림’, ‘태스크’, ‘타임트래블’, ‘제로카피클로닝’ 등의 기능을 예로 들었다.
AI 투자모델은 펀드의 구성을 지원한다. 보통 투자 포트폴리오를 구성할 때 각 종목별 점수와 투자 전략을 기반으로 결정하게 된다. AI 투자모델은 과거 데이터를 학습해 수식을 만들고 검증하는 과정을 거쳐 만들어진다. 여기서 AI 모델 학습에 활용되는 데이터의 품질에 따라 완성도가 갈린다.
최 본부장은 “보통 재무 회계 데이터는 마감 한달 뒤에 나오는데, 12월 31일 기준 재무 데이터라도 실제 발표 후 그 다음 분기나 심지어 다음해에 업데이트되기도 한다”며 “그래서 모델 학습에서 ‘특정 시점(Point in time)’ 데이터로 모델을 학습시켜 시뮬레이션해야 한다”고 설명했다.
그는 “계속 데이터 업데이트 상황을 관리해야 하다보니 여러 프로시저가 복잡해지고 데이터를 복제해야 하는 것”이라며 “시점 데이터 자체를 따로 구매하기도 하지만 그 데이터 조차도 문제가 있어서. 자체적으로 데이터 시점 이력을 따로 관리해야 하고 그 자체의 규모도 계속 커진다”고 말했다
스노우플레이크는 구조적으로 메타 데이터만 갖고 있고, 데이터 자체를 복제해서 이중 저장하지 않는다. 데이터 업데이트시 분기를 지정하고 변경 이후부터 따로 저장한다. 기존 대비 달라진 부분을 따로 관리할 수 있는 기능도 있다.
스노우플레이크의 ‘스트림(Stream)‘ 기능은 테이블과 뷰의 입력, 변경, 삭제 등을 자동 감지해 변경 로그를 저장함으로써 변경 사항을 추적하게 해준다. ‘태스크(Task)’ 기능은 주기적으로 SQL이나 프로시저를 호출해 데이터의 최신성을 유지하게 해준다.
‘타임트래블(Time Travel)’ 기능은 과거 데이터 변경 내역을 스냅샷으로 보관한다. 이를 활용해 특정 시점 데이터 복제, 복원, 특정 기간 내 재변경 내용 분석 등이 가능하다. ‘제로카피클로닝(Zero copy cloning)’ 기능을 활용하면 데이터 테이블을 물리적으로 복사하지 않고 메타데이터만 복제할 수 있다. 복제 후 변경 분에 대해서만 과금해 스토리지 비용을 아낄 수 있다.
스노우플레이크의 데이터 셰어링 기능은 AI 비즈니스의 글로벌 확장에도 도움을 준다. 국외 법인에서 미래에셋자산운용의 스노우플레이크 환경에 접속해 더 자유롭게 최신 데이터를 활용할 수 있게 됐다.
최 본부장은 스노우플레이크 도입을 전체 여정의 중단 단계로 보고 있다고 밝혔다. AI 모델에서 활용하기 위해 잘 처리된 데이터를 사내 여러 부서에서 활용하고 협업할 수 있는 환경을 만들고자 한다는 것이다.
그는 “기존의 온프레미스 데이터베이스의 경우 AI 엔진을 위해 포인트인타임 데이터를 처리한 것 같이 잘 정리된 데이터가 있어도 다른 부서와 쉽게 공유하기 어려웠다”며 “스노우플레이크는 여러 수준별 이용자에게 따로 열어주는 공간을 만들기도 쉽고, 권한부여도 쉬우므로 이를 회사내 현업 부서의 담당자가 노코드나 로우코드 툴로 잘 활용하게 할 계획을 갖고 있다”고 말했다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network