큐빅, “합성데이터로 한국 AI 산업의 새 길을 열겠다”

2025-01-26

-차등정보보호와 생성형 AI 결합한 독자 기술로 글로벌 시장 공략나서

-세계 4대 합성데이터 기업으로 성장

-데이터계의 ‘아마존’을 꿈꾸다

데이터는 AI의 두뇌와도 같다. 인간이 다양한 경험을 통해 성장하듯 AI도 풍부한 데이터를 통해 정교한 판단력을 갖추게 된다. 그러나 양질의 데이터를 확보하기가 쉽지 않다. 원본 데이터는 수집이 어렵고 라벨링 등 전처리 작업도 복잡하다. 민감정보와 개인정보 유출 위험이 있어 데이터 공유에 제약이 따르며, 불균형한 데이터 분포는 분석 성능을 떨어뜨린다.

이러한 데이터 문제를 해결하기 위해 등장한 기업이 있다. 데이터 보안과 합성데이터 생성에 특화된 AI 기업 큐빅이다. 큐빅은 차등정보보호 기술과 생성형 AI를 결합한 독자적인 기술력으로 글로벌 시장 진출을 준비하고 있다.

큐빅을 이끄는 배호 공동대표는 현재 이화여대 교수로 재직 중이다. 런던대학교에서 정보보안 석사를, 서울대학교에서 AI로 박사학위를 받았으며, 세계 최초로 AI 분야의 프라이버시와 보안을 정립하는 논문을 발표해 주목받았다. 정민찬 공동대표는 다수의 R&D와 AI 관련 특허를 보유하고 있으며, AI 데이터 어플리케이션 개발 경력을 갖고 있다. 하헌석 CTO는 10년 이상 합성데이터를 연구해온 AI 전문가다.

2021년 법인 설립 후, 큐빅은 2023년에 네이버 D2SF와 VNTG로부터 시드 투자를, 2024년에는 인탑스인베스트먼트로부터 프리A 투자를 유치했다. 2024년에는 정보보호제품 혁신대상에서 과학기술정보통신부 장관상을 수상했으며, SK텔레콤과 하나은행이 공동 운영하는 ‘AI 스타트업 액셀러레이터 2기’에 선정되었다. 배호 대표와 정민찬 대표를 만나 큐빅은 이처럼 세계 유일의 보안 합성데이터 전문 회사로 자리매김하게 된 과정에 대해 이야기를 들어봤다.

■ “글로벌에 도전하라…AI는 차세대 성장동력”

강남 소재 네이버 D2SF에서 만난 정민찬 대표는 스타트업들에게 ‘해외 시장에서 부딪쳐보라’는 말부터 꺼냈다.

“AI 분야에서 패배주의에 빠져 창업을 망설이거나 해외 진출을 두려워하지 말아야 합니다. 국내에서 인정받지 못해도 해외에서는 필요로 하는 기업이 될 수 있습니다.”

정 대표는 AI 기업을 ‘바퀴’에 비유했다. “아무리 좋은 ‘바퀴’를 만들어도 이를 활용할 ‘스포츠카’가 없다면 가치가 없습니다. 하지만 해외에 ‘스포츠카’가 있다면, 그곳에서 시너지를 만들어낼 수 있습니다.”라고 말하면서 글로벌 시장에서 자사의 ‘바퀴’와 맞는 ‘스포츠카’를 찾으라고 조언했다.

정 대표는 한국 AI 산업의 성장 가능성도 강조했다. “한국에도 독자적인 알고리즘을 가진 AI 기업이 나와야 합니다. AI는 우리나라의 차세대 성장 동력이 될 것입니다”라고 말하면서 “AI의 성능 차이는 학습 데이터에서 비롯됩니다. 동일한 엔진이라도 양질의 데이터로 학습하면 훨씬 뛰어난 결과를 얻을 수 있습니다”라며 AI 산업에서의 데이터의 중요성을 역설했다.

■ 전 세계 4곳뿐인 합성데이터 전문 기업

합성데이터는 원본 데이터의 한계를 극복하는 일종의 대체재 같은 것이다. 기존 데이터와 달리 확보가 용이하고 전처리가 불필요하며, 민감 정보 활용에 제약이 없다. 개인정보 유출 위험이 낮고 데이터 공유도 자유롭다. 또한 원본 데이터의 분포가 불균형하더라도 분석 성능을 개선할 수 있다.

정 대표는 합성데이터를 박물관의 모조품에 비유했다. “박물관에서 진품 대신 모조품을 전시하듯 합성데이터는 민감한 실제 데이터를 대체합니다. 진짜 데이터에는 유전자 정보, 금융 정보, 기업 기밀, 개인 신상정보와 같은 민감 정보가 포함되어 있어 엄격한 규제를 받습니다. 영국은 사전 허가제를, 미국은 사후 책임제를 적용하며, 한국은 유럽보다 더 강력한 규제를 시행하고 있습니다”라고 합성데이터의 필요성에 대해 설명했다. 즉 합성데이터는 규제로 인해 활용이 제한된 실제 데이터를 대체하는 인공 데이터라고 할 수 있다.

실제 데이터의 통계적 특성과 분포는 유지하면서 개인정보만 대체하는 고도화된 합성데이터 기술을 보유한 기업은 전 세계적으로 큐빅을 포함해 단 4곳뿐이다.

■ 차등정보보호와 생성형 AI의 결합…데이터 품질 유지하면서도 보안성 강화

합성데이터를 생성할 때 중요한 것은 데이터의 규모와 안전성이다. 예를 들어 작은 지역의 인구통계를 발표한다고 했을 때, ‘OO지역의 80대 남성’ 인구를 분석한다면, 모수가 적어 개인을 특정할 위험이 있다. 이러한 문제를 해결하기 위해 차등정보보호 기술이 필요하다.

차등정보보호 기술은 데이터셋의 통계적 특성은 보존하면서 개별 데이터의 식별은 불가능하게 만든다. 차등정보보호 기술은 MIT가 선정한 2020년 10대 혁신기술 중 하나로 현재 가장 안전한 데이터 보안 방식으로 알려져 있다. 차등정보보호 기술의 혁신성은 원본 데이터로의 복원이 불가능하다는 점이다. 기존의 비식별화 처리나 암호화와 달리, 차등정보보호가 적용된 데이터는 원래 정보로 되돌릴 수 없다. 이는 개인정보 보호와 데이터 활용이라는 두 가지 목표를 동시에 달성할 수 있게 해준다.

배 대표는 “차등정보보호기술은 현재 애플, 미국 인구통계국(Census Bureau)과 같은 글로벌 기업과 기관에서 채택한 최신 데이터 보안 기술입니다. 이 기술의 혁신성은 원본 데이터로의 복원이 불가능하다는 점입니다. 기존의 비식별화 처리나 암호화와 달리, 차등정보보호가 적용된 데이터는 원래 정보로 되돌릴 수 없습니다. 이는 개인정보 보호와 데이터 활용이라는 두 가지 목표를 동시에 달성해줍니다.”라고 설명했다.

큐빅은 여기서 한 걸음 더 나아가 차등정보보호와 생성형 AI를 결합했다. 배 대표는 “차등정보보호만 적용하면 데이터 성능이 70-80% 수준으로 떨어지는 한계가 있습니다. 저희는 이 문제를 해결하기 위해 차등정보보호와 생성형 AI를 결합했고, 이를 통해 ‘보안합성데이터’라는 새로운 패러다임을 제시했습니다”라고 설명했다. 보안합성데이터는 데이터의 품질은 유지하면서도 보안성을 강화한 혁신적인 기술이다.

■ 원본 데이터를 보지 않고도 원본과 같은 데이터를 생성…데이터비접근 기술

박물관의 모조품을 만들려면 진품을 봐야 하듯이, 합성데이터 생성도 원본 데이터가 필요하다. 하지만 큐빅은 원본 데이터를 보지 않고도 합성데이터를 만드는 ‘데이터 비접근 기술’을 개발했다.

배 대표는 “기존에는 데이터 보안을 위해서라도 원본 데이터를 공유해야 했습니다. 하지만 기업이나 기관 입장에서는 민감한 데이터를 외부에 제공하기 어렵죠. 저희는 데이터 비접근 기술로 이 근본적인 문제를 해결했습니다”라고 설명했다.

진품을 보지 않고 모조품을 만들기 위한 큐빅의 데이터 비접근 기술은 ‘스무고개’ 방식으로 작동한다. 고객이 원하는 데이터의 기본 속성만 설명하면, 큐빅이 예상되는 데이터셋을 생성해 전송한다. 고객은 이 중에서 적합한 데이터를 선택하고, 이 과정을 반복하며 데이터의 정확도를 높인다.

정 대표는 “첫번째 칼럼은 성별, 두번째 칼럼은 연령이라고 설명해주면 예상되는 데이터를 여러 세트 생성해서 보냅니다. 고객이 이 중에서 적합한 데이터에서 선택하면, 선택된 데이터를 기반으로 다시 새로운 데이터셋을 만들어 보냅니다. 고객과 ‘스무고개’를 하면서 데이터의 품질을 높여갑니다”라고 데이터 비접근 기술을 설명했다.

큐빅은 데이터 비접근 기술로 특허를 취득했으며 네이버와의 PoC(Proof of Concept)를 통해 기술의 우수성을 입증했다. 정 대표는 “2024년 5월에는 마이크로소프트가 유사한 알고리즘을 발표했는데 마이크로소프트는 이미지 데이터만 처리할 수 있는 반면, 큐빅은 텍스트, 이미지, 테이블 등 다양한 형태의 데이터를 처리할 수 있습니다.”라고 큐빅의 데이터 비접근 기술의 우수성을 강조했다.

■ ‘DTS’와 ‘azoo’, 데이터 산업의 새로운 패러다임

큐빅은 두 가지 핵심 솔루션을 제공한다. 첫째는 B2B SaaS ‘DTS’로, 기업이 내부적으로 합성데이터를 생성할 수 있는 툴이다. 2024년 7월 출시된 DTS는 계열사 간 데이터 공유와 AI 학습용 데이터 확보에 활용되며, 구독 모델로 운영된다.

둘째는 2024년 6월 출시된 데이터 거래 플랫폼 ‘azoo’다. 데이터 규제로 인해 각종 데이터를 개별적으로 구매해야 했지만, azoo에서는 합성데이터를 활용해 다양한 데이터를 한 곳에서 통합 거래할 수 있다.

정 대표는 “현재 규제 때문에 데이터를 각각 다른 곳에서 사야 하는 상황입니다. 하지만 합성데이터는 규제 대상이 아니어서, 마치 온라인 쇼핑몰처럼 모든 데이터를 한 곳에서 구매할 수 있습니다.”라고 설명했다.

azoo는 현재 기본적인 데이터 거래 기능을 제공하고 있으며, 데이터 결합 서비스를 준비 중이다. 2025년 상반기에는 통합 분석 기능도 도입될 예정이다. 이를 통해 단순한 거래 플랫폼을 넘어 종합 데이터 솔루션 플랫폼으로 발전할 계획이다.

■ 글로벌 시장 진출과 해외 투자 유치에 나서

큐빅은 현재 글로벌 시장 진출을 준비 중이다. 특히 데이터 규제가 엄격한 유럽 시장을 우선 공략한다는 전략이다. 영국 법인 설립을 진행하고 있으며, 해외 투자 유치도 앞두고 있다. 정 대표는 “유럽은 GDPR(General Data Protection Regulation)과 같은 엄격한 데이터 규제가 있어 저희 솔루션의 필요성이 더 높습니다. 현재 영국 법인 설립을 준비 중이며, 이후 미국 시장도 진출할 계획입니다”라고 글로벌 진출 계획에 대해 말했다.

그러면서 “AI가 안전해지려면 학습 데이터가 안전해야 합니다. 큐빅이 데이터 산업의 새로운 패러다임을 열겠습니다”라며 말하면서 “저희는 ‘데이터계의 아마존’이 되고자 합니다. 아마존이 전 세계의 상품을 하나의 플랫폼에서 거래하듯, 저희도 모든 데이터를 안전하고 자유롭게 거래할 수 있는 생태계를 만들고 싶습니다”라며 데이터 산업의 새로운 지평을 열어가겠다는 포부를 밝혔다.

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.