[컴업스타즈] “개인정보 걱정 없는 데이터 활용? 우리가 한다” 큐빅

2024-12-20

‘컴업 2024’와 관련한 더 많은 이야기를 만나보세요! -> 컴업 2024 특별 페이지 바로 가기

“민감정보나 기업보안 등의 이슈에 갇혀있던 데이터를 활용 가능한 자원으로 만들 뿐 아니라, 안전한 생성형 AI를 만드는 데 필수적인 솔루션으로 자리잡을 것이다”

네이버의 투자회사 D2SF가 차등정보보호 기술을 만드는 ‘큐빅’에 지난해 투자하면서 한 코멘트다. 큐빅이 하는 일은 “원본 데이터에 다른 데이터를 섞어서, 민감한 정보는 차단하고 필요한 데이터는 얻어낼 수 있게 하는 일”이다. 데이터에 ‘노이즈’를 심어서 개인을 식별하는 정보는 무력화하고, 데이터 연구 분석에 필요로 하는 정보를 가능한 많이 살리는 데 집중한다.

이런 기술이 왜 중요하냐면, AI가 발전할수록 ‘안전하고 정확한 데이터’에 대한 수요가 높아지고 있어서다. 그러나 장벽도 있다. 개인정보 보호라는 매우 중요한 이슈가 있어 기업들은 쉽게 데이터 활용에 나서지 못한다. 큐빅이 풀려는 문제가 이것이다. 합성 데이터로 개인 정보 이슈는 피하면서, 데이터를 필요로 하는 이들에게는 적합한 데이터를 공급해주는 것. 이게 어떻게 가능한지는 지난해 8월, 큐빅의 배호·정민찬 대표와의 인터뷰에서 자세히 나와 있다. [큐빅 “내 정보 암호화? 우리가 메타보다 잘한다”]

저때만 해도 큐빅은 이제 막 창업한 진짜 새내기였는데, 1년 4개월 만에 올해 컴업2024에서 1208개 팀의 도전자 중 최종 10위 안에 드는 성과를 낼 정도로 성장했다. 이들이 가진 기술이 지금은 어떻게 발전했고, 또 얼마만큼의 비즈니스 성과를 내고 있는지가 궁금했다. “한국에서 AI 기술 알고리즘을 갖고 사업하는 곳이 있다는 걸 알리고 싶어” 컴업에 참여했다는 정민찬 대표(=사진)와 인터뷰를 나눴다.

우리가 인터뷰를 한 지 1년 4개월이 지났다. 그 사이 어떤 점이 달라졌나?

기술의 시장적합성에 대한 검증이 됐고, 고객사도 많이 확보했다. 글로벌로 큐빅이 가진 ‘차등정보보호기술’에 대한 수요를 확인한 상황이다. 정리하자면, 프로덕트 자체도 많이 고도화했고, 이 프로덕트를 사겠다는 클라이언트가 국내외로 있다는 걸 알았다.

당시에 네이버클라우드와 기술 협업을 진행 중이라고 했었는데

1년에 걸쳐 기술 검증을 완료했다. 개념증명(PoC)는 끝났고, 이제 실제 고객들이 쓸 수 있도록 제품화 하는 계약을 진행 중에 있다. 네이버 외에도, 여러 군데에서 PoC 진행을 위한 자금을 받았고, 그 결과도 좋아 실계약으로 이어질 예정이다. 요즘 같은 때에 (투자 예정이) 오버부킹이 되어 있을 정도로 많은 투자자들이 굉장히 러브콜을 보내고 있다.

왜 투자자들이 관심을 갖는다고 생각하나?

유럽연합의 개인정보보호법(GDPR) 이슈를 알고 있나? 그 이슈가 차등정보보호기술로 해결이 되기 때문이다.

조금 더 자세히 설명해달라. 어떻게 해결이 가능한가?

기존에는 데이터 내부에 개인 정보나 민감 정보가 포함되어 있으면 데이터를 유통할 수 없었다. 산다, 판다 개념이 아니라 ‘공유’ 자체가 어려웠다. AI 학습이 불가능했던 것은 물론이다. 사람들은 오픈AI가 AI를 훨씬 잘 만들고 다른 회사들은 못 만들 거라고 생각을 할텐데, 그렇지 않다. AI에 대한 기술은 어느 정도 평준화됐다.

그럼 어디에 차이가 있느냐? 누가 더 많은 데이터를 확보했느냐다. 최근에 의료 스타트업 중에서 상장도 하고, 잘 된 곳에 어떤 특이점이 있느냐 보면, 굉장히 많은 데이터를 기반으로 학습을 했다는 것이다.

큐빅의 차등정보보호기술이 그 문제를 해결한다?

그렇다. 데이터가 그간 굉장히 폐쇄적이고 비공개적으로 유통이 됐다. 암암리에 많이 모은그룹이 리더에 섰는데, 큐빅의 기술을 통하면 내부 데이터를 합성 데이터로 변환할 수 있다. 즉,데이터가 아니라 AI가 만든 2차 산출물이 되기 때문에 GDPR과 같은 법의 리스크를 회피할 수 있는 부분이 생겨난다. 글로벌, 특히 유럽권이나 예민한 데이터를 가진 미국의 반도체 회사 같은 곳에서 우리 기술에 관심을 가지는 이유다.

AI 교육을 위한 합성 데이터를 만드는 것이 큐빅이 하는 일의 핵심인가

AI 합성 데이터 시장 자체가 AI 학습용 데이터가 부족했기 때문에 나온 것은 맞다. 그러나, 큐빅이 하려는 일은 AI 학습용 데이터의 부족 문제만 해결하는 게 아니라, 기존의 모든 데이터 산업 전반에서 공유되지 못했던 데이터를, 정말 진짜 같이 만들어 주는 것이다. 데이터 산업 전 영역에서 쓰이는, ‘원본과 동일한 성능’의 고품질 데이터를 만든다고 보면 된다.

원본과 동일한 성능이라는 것이 무슨 뜻인가?

그렇다. 예를 들어 자율주행 데이터에서 기존에는 사람은 빨간색, 자동차는 파란색 이런 식의 데이터는 누구나 만들 수 있다. 그렇지만 누가 봐도 진짜 사람이 지나가는 데이터를 만드는 것은 쉬운 일이 아니다. 정말 원본과 동일한 성능을 낼 수 있는 그런 데이터를 만드는 일은 어려운 일이고, 우리가 한다.

한 가지 덧붙이자면, AI 학습용 데이터에 국한해 보더라도, 기존의 데이터는 모두 편향되어 있다는 문제가 있다. 예를 들어 이상탐지 AI 모델을 만든다고 치면, 기존의 학습 데이터는 “이미 있었던 일”에 대한 데이터만 갖고 있는 편향이 있다. 예컨대 공장에서 불량이 나와야 불량을 감별해내지 않겠나. 또, 외부에서 드론이 침투하는 걸 막아야 할 때도 그런데, 이런 이상 상황의 데이터는 시중에 없다. 데이터 증폭 기술로 이런 데이터를 만들어내야 하는데, 아무나 할 수 있는 일이 아니다.

큐빅이 가진 경쟁력의 핵심은 무엇인가?

사람이다. 우리가 하는 분야는 ‘보안’과 ‘AI’를 접목해야 한다. 차등정보보호기술과 데이터에 직접 접근하지 않는 기술, 생성AI를 써서 합성 데이터를 만들어내는 기술이 있어야 하는데, 이런 융합분야를 할 수 있는 이가 없다. 이 세 가지 기술 자체가, 다 하나의 꼭지점만 잘 하기도 어려운 영역들이다. 그런데, 큐빅 공동창업자인 배호 교수가 컴퓨터 공학으로 학사를, 암호학으로 석사를, 인공지능으로 박사를 했다. 이 영역들을 오랜 기간 연구했는데, 그런 사람이 글로벌로도 별로 없다. 우리는 후발주자가 나오기를 정말로 바라고 있을 정도의 상황이다.

데이터 증폭, 데이터에 직접 접근하지 않는 기술에 대해서 더 설명해달라. 어떻게 가능한가?

고객사의 서버 안에서 밖으로 나오지 못하는 데이터가 있다. 일단, 기본적으로 데이터를 봐야지 비식별 처리를 하든 AI를 위한 학습 데이터를 만들든 하지 않겠나. 그러면 데이터를 우리가 직접 받아야 하는데, 이건 법적으로 불가능하다. 데이터를 받을 수 없으니 산업이 발전하지 못하는 것도 당연하다.

그 문제는 어떻게 해결했나?

고객사한데 데이터를 어디로도 보내지 말고, 그냥 서버에 두라고 한다. 대신 우리가 서버 내에 있을 거라고 추정되는 데이터와 유사한 내용의 데이터를 수십배 증폭해서 보낸다. 그러면, 고객사 서버에 설치해 놓은 큐빅의 프로그램에 의해서 원본이 “어, 얘는 나랑 비슷해” 또는 “얘는 나랑 전혀 달라, 상관이 없어”를 선별해서 회신한다. 만약 우리가 보낸 100개의 데이터 중 30개가 유사하다고 돌아오면, 이걸 바탕으로 더 원본과 같을 가능성이 높은 데이터를 더 많이, 1000개씩 증폭해서 다시 보내는 식이다. 그렇게 몇번을 오가다보면 원본과 동일한 데이터가 나오게 된다.

몽타주와 같아 보이는데

정확한 표현이다.

큐빅이 보내는 데이터를 고객사 서버가 받아들이려면 어떤 조치를 미리 취해야 하나?

큐빅의 프로그램을 설치해놓아야 한다. 다만, 이 프로그램이 데이터에 직접 접속하는 것은 아니기 때문에 법적 문제는 없다. 외부로 원본이 나가지 않고, 큐빅이 보낸 데이터만 서버가 받았다는 것을 인증하기 위한 보안 절차를 현재 밟고 있다.

고민하는 게 있다면

해외 비즈니스를 해야 하는데, 그간 국외로 나가 좋은 성적을 낸 선례가 별로 없다. 그래서 큐빅이 뒤에 따라오는 후발 스타트업에 좋은 롤모델이 될 수 있게끔 이 길을 잘 닦아야 한다는 약간의 책임감도 갖고 있다.

이제 연말이다. 내년엔 어떤 계획을 갖고 있나?

AI 스타트업이기 때문에 매출을 내는 일이 다들 쉽지 않을 거라고 본다. 그럼에도 불구하고,어려운 시기에 매출을 확보하는 것을 일단 제일 목표로 하고 있다.

궁극적으로 큐빅은 어떤 회사가 되려 하나?

데이터 자체가 이미 강한 규제를 받고 있는데, 태어날 때부터 받는 규제라 아무도 규제라 생각하지 않더라. 당연히 “그건 (쓰면) 안 되는 거지”라고 고정관념에 사로잡혀 있다. 그런 부분을 깨서, 데이터를 조금 더 평등하고 자유롭게 쓸 수 있게 하는 ‘데이터 백화점’이 되고 싶다.

글. 바이라인네트워크

<남혜현 기자> smilla@byline.network

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.