[ET시론]인공지능과 관련한 프라이버시 리스크의 관리

인공지능(AI)은 우리의 일상에 여러 가지로 편리함을 가져다준다. 하지만 그와 함께 다양한 형태의 리스크가 나타날 우려도 있다. 리스크(risk)는 위험(danger)을 의미하지 않는다. 크고 작은 부작용이나 오남용의 가능성을 염두에 둔 표현이다. 개념적으론 부작용이나 오남용이 발생할 확률에 실제로 문제가 발생할 경우에 나타날 영향의 크기나 규모를 곱해 계산한다.

따라서 어떤 부작용이나 오남용의 가능성이 있는지, 각각의 가능성이 실제로 구현될 확률은 어느 정도인지, 그로 인한 영향의 크기나 규모는 어느 정도인지 가늠하는 것이 리스크 관리의 기본적인 출발점이다.

AI와 관련한 리스크를 잘 통제하고 관리하는 것은 AI가 우리의 일상에 자리 잡도록 하는데 필수불가결한 중요한 전제다. 만일 불안 요소가 크다면 사회적 신뢰 확보가 어렵고, AI를 일상에 도입하는 데에도 커다란 한계가 있을 수밖에 없다.

AI는 프라이버시 맥락에서도 새로운 도전 과제를 제시한다. AI 맥락에서의 개인정보 처리는 전통적인 개인정보 처리와는 다른 면이 많기 때문이다. AI의 학습 과정에서 요구되는 데이터는 규모도 클뿐더러, 그 유형도 텍스트·이미지·영상 등 매우 다양하다. 데이터를 확보하는 과정에서도 정보주체로부터의 동의나 계약과 같이 기존에 흔히 적용되던 방식이 작동하기 어렵고, 인터넷상에 공개된 데이터를 비롯해 불특정 다수와 관련된 데이터를 이용해야 하는 경우가 적지 않다.

이와 같은 새로운 상황 하에 프라이버시와 관련해 어떤 리스크가 있는지 체계화해 정리하고, 파악된 리스크에 적절히 대응하기 위한 관리 체계를 구축하는 것은 매우 중요하다. 리스크를 잘 파악하고 관리한다는 것은 리스크를 영(0)으로 만든다는 것을 의미하지 않는다. 새로운 기술의 사회적 도입을 전제로 할 때 그 과정에서 부작용이나 오남용이 전혀 발생하지 않도록 한다는 것은 현실적으로 불가능하다. 그보다, 중대한 리스크의 상황에 대해선 그에 걸맞은 많은 노력을 통해 리스크를 최소화하도록 하고, 리스크가 거의 없는 상황이라면 노력을 덜 기울여도 되도록 하는 유연성과 자율적 책임이 핵심이다. 그런 의미에서 리스크 최소화를 위한 정확한 현황 파악과 관리가 중요하다. 유연성과 자율성은 AI와 같이 변화가 많은 신기술의 영역에선 기업의 새로운 혁신 활동을 위해서도 특히 중요하다.

그렇다면 리스크를 평가하고 관리하는 절차는 어떻게 구축할 것인가? 4단계로 나눠 개념화할 수 있다. 첫째, AI의 유형과 용례를 파악(identifying)하는 단계, 둘째, 해당 유형과 용례에 대응하는 리스크를 식별하고 매핑(mapping)하는 단계, 셋째, 리스크를 측정(measuring)하는 단계, 넷째, 리스크를 경감(mitigating)하는 방안을 구체화하고 실제로 도입하는 단계다. 각각의 단계가 어떻게 작동할지 생각해 보자.

첫째 단계는 AI의 유형과 용례를 파악하는 단계다. AI와 관련된 프라이버시 리스크는 AI 모델의 유형, AI 시스템의 목적, 처리되는 데이터 유형을 포함한 다양한 요소에 따라 달리 나타난다. 리스크 관리가 실효성이 있으려면, 첫 단계로 어떤 유형의 AI가 도입될 것이고 해당 AI를 이용한 서비스의 목적이 어떠할지 체계화해 정리하는 것이 우선 필요하다.

AI 시스템을 기획하거나 개발하는 과정에서는, 예를 들어 인터넷상의 공개된 데이터를 이용할 것인지, 학습이 일단 이뤄진 모델에 대해 데이터의 추가 투입을 통한 미세조정(fine-tuning) 작업을 할 것인지, 도메인 적응적 학습(DAL)이 필요할지, 퓨삿(few-shot) 러닝과 같은 맥락 내 학습(ICL)을 적용할지, 검색증강생성(RAG) 방식이 적용될지 등의 여러 요소 및 관련된 세부 사항에 대한 고려가 필요하다. 개별 상황에서 실제로 필요한 데이터 내역이나 규모는 천차만별일 수 있는데, 이를 구체화하는 과정이 수반돼야 한다.

한편 개발 후에 서비스가 이뤄지는 과정에선, 생성형 AI 유형의 서비스인지 판별형 AI 유형의 서비스인지에 따라 고려 요소가 달라질 수 있다. 생성형 AI는 이용자로부터의 입력값과 문맥에 기초해 텍스트·이미지·비디오 등을 생성하는 역할을 주로 하는 AI 시스템이다. 판별형 AI의 유형은 좀 더 다양하다. 채용 추천 AI, 신용평가 AI, 금융 사기방지 AI와 같이 개인에 관한 평가나 분류를 수행하는 AI 시스템, 그리고 AI 기반의 맞춤형 콘텐츠나 광고를 제공하는 유형의 AI 추천 시스템, 그 이외에 의료 AI, 자율주행 AI와 같이 사실이나 상황 인지가 주요 기능인 AI 시스템 등 다양한 유형의 시스템이 있다. 어떤 서비스인지, 해당 서비스를 위해 요구되는 데이터의 유형과 규모는 어떠한지, 해당 데이터는 누가 관리하고 있고 누구에게 귀속되는 것인지에 대해 파악하고 정리할 필요가 있다.

둘째 단계는 첫 단계에서 파악한 AI 유형 및 용례에 대응하는 리스크를 식별하고 매핑하는 단계다. 기획이나 개발의 과정에서는, 적법하지 않은 데이터를 수집해 학습데이터로 이용할 가능성, 학습데이터의 관리가 부적절할 가능성, AI 가치망의 다양화에 따라 데이터 흐름이 지나칠 정도로 복잡해질 가능성 및 그에 따른 추가적 리스크가 발생할 가능성 등이 고려될 수 있다.

서비스 과정과 관련해선 별도의 리스크가 나타날 수 있다. 생성형 AI 서비스의 제공과 관련해 흔히 언급되는 리스크는 학습데이터의 암기 가능성 그리고 그로 인해 개인정보가 부당하게 노출될 가능성이다. 또한 악의적 합성콘텐츠의 생성·유포와 관련된 리스크도 중요하게 언급된다. 판별형 AI와 관련해서는, AI를 이용한 자동화된 결정의 과정에서 개인의 권리가 실질적으로 무시될 가능성이나 AI 기술이 부당하게 민감정보를 추출하거나 추론하는 도구로 쓰이게 될 가능성, 그리고 대중에 대한 부당한 감시 도구로 AI 기술이 활용될 가능성이 언급된다.

셋째 단계는 관련 리스크를 정리한 뒤 이를 측정하고 판단하는 단계다. 이 단계에선 1)리스크의 발생 확률 ２)해당 리스크가 실현될 경우의 그 영향의 크기나 중대성 3)리스크의 수용가능 여부 4)서로 다른 리스크 사이의 우선순위 등에 관한 분석과 판단이 이뤄지도록 한다.

넷째 단계는 리스크의 경감을 위한 방안을 검토하고 도입하는 단계다. 이 단계에선 리스크를 식별하고 측정한 것에 이어, 리스크를 최소화하기 위한 기술적 방안과 관리적 방안을 도출하고 도입한다. 관리적 방안의 예시로는 학습데이터의 출처 및 이력 관리, 데이터에 대한 적절한 보관과 관리, 허용되는 이용 방침의 공개 및 관리, '레드팀'과 같은 담당 조직의 운영, 조직 내부나 외부로부터의 피드백을 위한 절차의 수립 등을 들 수 있다. 기술적 방안으론 예를 들어 중복제거(deduplication)를 포함한 전처리 과정에서의 데이터 관리, 입·출력 필터링 적용, 합성 데이터 사용에 대한 고려, 다양한 프라이버시 향상 기술을 도입하는 것을 생각할 수 있다.

물론 이와 같은 기술적 방안 및 관리적 방안을 모두 수행해야 하는 것은 전혀 아니다. 일괄적 적용은 현실적이지도 않을뿐더러, 모든 리스크가 여러 AI 시스템에 공통적으로 나타나는 것도 아니다. 중요한 것은 리스크에 대한 평가 및 관리 체계를 구축해 실효성 있게 운영하는 것이다. 최적의 안전조치 조합을 찾아내기 위한 분석과 평가 역량을 갖추고, 그로부터 평가된 리스크에 상응하는 수준의 적절한 관리 체계를 마련하고 이행하는 것이 핵심이다. 이는 다양한 새로운 시도를 위한 가능성을 열어주고 유연성을 확보할 수 있게 해주는 것이지만, 동시에 상당한 수준의 자율적 책임을 부담하는 것이기도 하다.

사실 프라이버시 리스크를 포함한 AI 리스크에 관해선 이미 여러 나라에서 관심이 늘고 있고 적지 않은 논의가 이뤄지고 있기도 하다. 지난해 5월 서울에서 열린 AI 정상회의도 그 출발은 리스크에 초점을 맞춰 2023년 11월에 영국 블레츨리에서 열린 AI 안전성 정상회의였다. 좀 더 실무적인 차원에서는 미국 국립표준기술원 등의 몇몇 정부 또는 공공기관 그리고 일부 국제표준기구에서 가이드 제시와 표준화를 위한 노력이 이뤄지고 있다. 논의 초기 단계이기는 하지만 개략적인 방향성에 대해서는 일정 수준의 묵시적 합의가 있다고 봐도 좋은 상황이다. 국내에선 개인정보보호위원회가 지난 12월에 'AI 프라이버시 리스크 관리 모델'을 발표한 바 있다. 개인정보에 주목하여 AI 리스크 맥락의 가이드를 제시한 것으로는 이 작업이 세계적으로도 앞선 작업이라 할 수 있고, 그런 만큼 해외에서도 주목을 받고 있다. AI 데이터와 관련한 규범 논의의 영역에서는 우리나라가 이미 세계를 선도하고 있다.

고학수 개인정보보호위원회 위원장 haksooko@korea.kr

〈필자〉고학수 위원장은 서울대 경제학과에서 학·석사, 미국 컬럼비아대에서 경제학 박사와 로스쿨(JD) 학위를 받았다. 이후 미국 로펌 휴즈 허바드 앤 리드, 국내 로펌 세종에서 변호사로 일했다. 연세대 법대, 서울대 법학전문대학원에서 법경제학, 개인정보보호, 인공지능 등의 영역을 연구했다. 아시아법경제학회장, 한국인공지능법학회장 등을 역임하며 '산업과 이론을 두루 겸비한 현장 중심형 학자'라는 평가를 받아왔다. 2023년 10월엔 유엔 AI 고위급 자문기구 39명에 포함돼 국제 거버넌스 상호운용성 분과 공동 분과장으로 활동하며, 한국의 AI 정책 분야 영향력을 크게 확장했다.