
우리가 사용하는 대부분의 애플리케이션(앱)과 웹사이트는 '로그인'을 요구한다. 쇼핑앱에 로그인을 하지 않으면 내가 상품을 구매했던 기록도 볼 수 없고, 내가 좋아할 만한 상품을 추천하는 기능도 작동하지 않기에 오늘도 우리는 아이디와 암호를 입력하며 로그인을 하게 된다. 온라인 강의에 접속하려 해도 아이디와 암호는 필수적이다. 내가 학습한 콘텐츠를 다시 볼 수도 있고, 진도도 점검할 수 있다. 내가 자주 틀리는 문제를 복습할 수도 있다.
그런데, 어디에나 어둠의 세력은 있기 마련이다. 온갖 트릭을 사용해서 이용자의 눈을 가린 뒤 로그인에 필요한 아이디, 암호, 인적사항 등 개인정보를 스마트폰에서 직접 빼가거나, 웹사이트에서 훔쳐간다. 이용자들이 한 웹사이트에 사용한 아이디나 암호를 다른 웹사이트에서도 쓰는 경향이 있기 때문에, 훔친 개인정보는 추가로 다른 웹이나 앱을 해킹하는 데에도 사용된다. 잊을만 하면 벌어지는 공공기관이나 기업의 해킹 사고는 결국 우리의 소중한 개인정보를 실질적으로 공개정보로 바꿔버리는 재난상황을 초래한다.
이제 이러한 개인정보를 여차하면 게걸스럽게 먹어치울 준비가 되어 있는 새로운 존재가 등장했다. 바로 대형언어모델(LLM)을 기반으로 한 생성형 인공지능(AI)이다. 일반적으로는 AI에 입력할 데이터에 민감한 개인정보가 포함되어 있는지 검토하는 단계가 있지만, 이 단계가 완벽하게 작동하리라는 보장은 없다. 그래서 학습단계에서 개인정보를 최대한 보호할 수 있는 기술에 대한 수요가 등장하고 있고, 여기에 부응한 기술 중 하나가 바로 프라이버시강화 머신러닝(Privacy-Preserving Machine Learning:PPML)이다.
PPML은 개인정보를 최대한 보호하면서도 AI가 제공하는 지식이나 서비스의 질은 최소로 희생하고자 하는 방향으로 진행된다. 유럽연합(EU)이 강조하는 일반데이터보호규정(GDPR)이나 민감한 개인 의료정보를 보호하고자 미국에서 시행하는 건강보험 양도 및 책임에 관한 법률(HIPAA) 등을 준수하지 않으면 정상적인 AI 서비스가 불가능한 현실에 적응하기 위해서도 이러한 기술적 조치는 필요하다. 또한 개인정보가 안전하게 관리되는 한에서만 다양한 주체가 데이터를 활용해서 협업할 수 있기 때문에 관련 기술은 중요하다.
PPML은 다양한 방법으로 구현되는데, 이용자가 갖고 있는 스마트폰이 데이터를 메인서버에 전송하지 않은 상태에서 로컬 환경에서 학습하고, 거기서 최소한의 익명화된 정보만 메인서버로 전송해 통합하는 기술이 있다. 흔히 연합학습이라고 불리우는 이 기술은 주로 의료기관과 이용자간 정보를 주고받을 때 사용된다.
데이터에 무작위로 일종의 잡음을 일부러 추가해서 개별 데이터 항목을 식별하지 못하게 하는 방식도 있다. 이렇게 잡음이 섞인 데이터는 허가받지 않은 사람이 정보를 다운로드 받아 특정인을 식별하는 것을 방지하기 위해 사용된다. 차등 프라이버시라고 불리우는 이러한 방식도 점점 더 사용이 늘고 있다.
일단 데이터를 암호화해 놓고, 그것을 복호화하지 않은 상태에서 직접 계산에 활용하는 방식도 있다. 이 방식은 복호화된 데이터보다 많은 계산을 요구해 비용이 많이 들게 되므로 일부에서 활용되고 있다. 이러한 데이터를 여러 당사자가 분리해서 소유하되 계산 중 일부를 함께 하는 방식도 있다.
또 하드웨어 레벨에서 아예 민감한 정보를 분리 처리함으로써 외부로의 데이터 유출을 원천 방지하는 기술도 쓰이고 있는데, 이러한 방식은 데이터의 특성과 요구되는 프라이버시 수준, 성능 요구사항 등을 복합적으로 고려해 활용된다. 개인정보 보호는 반드시 가야 하는 길이다.
김장현 성균관대 교수