합성데이터 유용성 측정지표 연구성과 발표
과학기술정보통신부와 정보통신기획평가원의 지원을 받아 주식회사 이지서티(대표 김동례)가 진행 중인 연구과제의 성과로 ‘합성데이터 유용성 측정지표 조사연구’가 공개됐다. 이 연구 결과는 지난 2월 1일 ‘한국통신학회 동계학술대회(KICS Winter Conference 2024)’에서 발표되었으며, AI 데이터 활용에서 개인정보 보호와 유용성 확보를 동시에 충족하는 방안을 제시했다는 점에서 주목받고 있다.
이번 연구는 ‘정형 및 비정형 데이터의 가명·익명화를 위한 자동처리 기술 및 안전성 검증 기술개발’ 연구과제의 일환으로, 개인정보를 보호하면서도 데이터의 활용도를 높이기 위한 목적으로 추진되었다. 한국정보통신기술협회가 발표한 이번 연구 결과는 정형화된 데이터뿐만 아니라 비정형데이터에서도 개인정보 유출 위험 없이 안전하게 활용할 수 있는 가능성을 제시하며, AI 기술이 개인정보보호 문제를 극복하고 발전할 수 있는 길을 모색하는 데 의미가 크다고 평가받고 있다.
■ AI 시대의 개인정보보호와 합성데이터의 역할
최근 AI 기술의 발전이 가속화되면서 개인정보보호 문제가 더욱 중요한 과제로 떠오르고 있다. AI가 높은 성능을 발휘하려면 대량의 데이터 학습이 필수적이지만, 이로 인해 개인정보 보호 우려가 커지는 상황이다. 개인정보보호위원회는 지난해 AI 데이터 활용 가이드라인과 프라이버시 정책 협의회를 출범하며 규제 방안을 마련했으나, 현실적으로는 개인정보에 대한 수요와 규제 간의 충돌이 여전한 실정이다. 이에 따라 실제 데이터를 대체할 수 있는 안전한 대안으로 ‘합성데이터’가 주목받고 있다.
■ 합성데이터, AI 모델 학습에 적합한 안전한 대안
합성데이터는 실제 발생한 데이터가 아닌 컴퓨터 프로그램이나 알고리즘을 통해 생성된 데이터로, 기존 데이터의 특성을 유지하면서도 개인정보 노출 위험을 최소화할 수 있다. 머신러닝 및 딥러닝 모델 학습에 활용할 수 있으며, 이를 통해 AI 모델의 성능을 향상시키고 데이터 안전성을 검증하는 데 유용하다. 특히 대규모 개인정보를 포함한 실제 데이터의 활용이 어려운 상황에서 연구와 테스트의 수단으로서 주목받고 있다.
이지서티의 연구팀은 이번 연구에서 합성데이터의 유용성을 객관적으로 평가하기 위한 다양한 지표를 제시했다. 1차원 분포 유사도, 2차원 관계 유사도, 모형 성능 유사도, 성향점수 등을 통해 실제 데이터와 얼마나 유사하게 통계적 및 구조적 특성을 반영하는지를 측정하여 합성데이터의 신뢰성을 강화했다. 이로써 AI 분야에서 데이터 품질을 개선하고, 합성데이터 활용 가능성을 산업 전반으로 확장할 수 있는 기초를 다졌다는 평가를 받는다.
이번 연구는 단순히 AI 모델의 성능 향상을 넘어, 개인정보 보호와 AI 발전을 동시에 도모할 수 있는 새로운 대안을 제시한 점에서 의의를 가진다. AI와 데이터 혁신이 요구되는 다양한 산업 분야에서 합성데이터의 활용 가능성을 제시한 이지서티의 연구 성과는 향후 데이터 혁신과 산업의 발전을 촉진하는 기반이 될 것으로 기대된다.