
인공지능(AI)에 대한 관심은 지속적으로 늘고 있다. AI 기술 개발 그리고 관련 생태계 발전에 국가적인 총력을 기울여야 한다는 데 의문을 제기하는 시각은 이제 찾아보기 어렵다. AI가 미래형 범용기술이라는 점을 고려하면 이는 매우 자연스러운 흐름이다.
AI 기술은 하드웨어, 알고리즘, 데이터 등 다양한 구성요소로 이뤄진다. 이 가운데 '데이터'는 눈에 보이지 않는 비물리적 자산이고 또한 객관적인 품질 평가 기준을 설정하기도 쉽지 않아서 실질적으로 과소 평가되는 경우가 많다. 하지만 AI의 성능은 궁극적으로 학습에 사용된 데이터의 품질이 결정적인 영향을 미친다. 데이터는 단순한 기술적 자원이 아니다. 개인정보 보호를 포함해 처리의 과정에서 생각해야 할 고려 사항도 많은 편이고, 데이터를 어떻게 다뤘는지는 사회적 신뢰와도 곧바로 연결될 수 있어서 많은 주의가 필요하다. 그럼에도 데이터에 대한 투자와 관심은 하드웨어나 알고리즘에 비해 부족한 편이다.
이러한 상황은 역설적으로 AI 맥락에서의 개인정보의 처리와 관련된 명확한 가이드 라인의 필요성을 더욱 부각시킨다. 개인정보보호위원회는 최근 몇 년간 AI 데이터에 관한 다양한 안내서를 발표한 바 있고 그와 동시에 수십 건의 실제 사례를 통해 적지 않은 경험을 축적해 왔다. 그리고 이를 정리해 이번에 '생성형 AI 개발·활용을 위한 개인정보 처리 안내서'를 펴냈다. 이 안내서는 생성형 AI와 관련해 개인정보의 처리를 어떻게 하면 좋을지에 관해 단계별로 체계를 잡아 정리한 것은 물론이고 무엇보다 유용한 실제 사례를 함께 제시함으로써, AI 개발 실무에 구체적인 도움을 줄 수 있도록 구성돼 있다.
생성형 AI 서비스가 개발되고 활용되는 상황은 넓게 △목적 설정의 단계 △전략 수립의 단계 △AI 학습과 개발의 단계 △AI 시스템을 적용하고 관리하는 단계 등 4단계로 나눠 고려할 수 있다. 물론 각각의 단계에서 고려해야 할 개인정보 관련 사항들은 상당히 다양한 형태로 나타날 수 있다.
각각의 단계를 나눠 보면, 우선 첫 번째 단계인 목적 설정의 단계는 AI 개발이나 활용과 관련해 필요한 개인정보가 어떤 것인지, 해당 개인정보가 어떤 목적을 위해 필요한 것인지 명확히 정의하는 단계다. 목적이 명확하지 않은데도 그와 무관하게 개인정보를 최대한 수집해 활용할 수 있으면 좋겠다는 태도는 곤란하다. 반대로 목적이 명확하다면 해당 목적에 부합하는 유형의 개인정보를 상세하게 수집해 이용할 수 있는 정당성을 확보할 수 있다. 만일 인터넷에 이미 공개된 데이터를 수집해 AI를 위해 이용할 것이라면 개인정보보호법에 규정된 '정당한 이익' 개념에 부합하는지 검토할 필요가 있다. 실제로 최근에 이 개념을 적용해 AI 개발이 진행된 사례가 나타나고 있어서, 이 개념은 더 이상 추상적 단계에 머물러 있지 않은 상황이다.
한편 기존에 수집해 둔 개인정보를 AI 맥락에서 또다시 이용할 것이라면 당초의 수집 목적과의 관계가 중요하다. 처음 수집할 당시에 제시된 목적을 넘어서지 않는 범위에서는 AI 서비스의 고도화를 위해 기존에 수집된 개인정보를 그대로 이용해도 무방하다. 만일 당초에 제시된 목적의 범위 이내라 보기는 어렵지만 해당 목적과 합리적 관련성이 있는 상황이라면, 적절한 조치를 전제로 개인정보의 활용이 허용될 수 있다. 예를 들어, 적절한 안전조치 및 이용자의 선택권 보장을 전제로, 이용자가 프롬프트에 입력한 데이터를 AI 거대언어모델(LLM)의 성능 개선을 위해 이용하는 것을 허용한 사례가 있다.
이와 달리, 당초에 수집한 목적과는 명확히 구분되는 별개 목적을 전제로 신규 AI 서비스 개발을 계획하고 있다면 상황은 크게 달라진다. 다만 그 경우에도 당사자로부터 별도의 동의를 받지 않고 이미 수집된 개인정보를 이용해 AI 개발을 할 수 있는 가능성은 열려 있다. 실제로 보이스 피싱 예방을 위한 AI 기술을 개발하는 과정에서, 기존에 확보한 보이스 피싱 통화데이터를 '성문분석'을 위한 학습데이터로 활용하도록 허용한 사례가 있다. 만일 통화데이터를 이용하기에 앞서 당사자인 보이스 피싱 범죄자로부터 직접 동의를 구해야 한다면, 대부분의 경우에 동의 확보가 불가능할 것이고 그로 인해 기술 개발의 진행 자체가 어려울 수 있는데, 그러한 비합리적 상황이 발생하지 않도록 판단한 것이다. 그 이외에도 보이스 피싱 예방은 일반 국민의 일상과 맞닿아 있는 특히 중요한 영역이어서, 관련 기술의 개발을 장려하기 위한 다양한 정책 도구를 활용하고 있기도 하다.
생성형 AI 개발의 두 번째 단계는 전략을 수립하는 단계다. AI를 이용한 제품이나 서비스를 기획하고 개발, 제공하는 전체의 과정에서 개인정보와 관련해 어떤 리스크 요인이 있는지 파악하고 그에 관해 어떤 전략을 택할 것인지 판단하는 단계다. 이 단계에서의 고려는 기존 AI 모형에 연동해 부가적 응용서비스를 제공하는 상황인지, 이와 달리 공개된 오픈소스 AI 모형에 추가 학습해 새로운 서비스를 제공하는 상황인지에 따라 달라질 수 있다. 물론 아예 새로운 AI 모형을 자체 개발해 서비스를 제공하는 상황도 있을 수 있다. 각각의 경우에 개인정보와 관련된 리스크 요인이 각기 다르게 나타날 것이므로 이를 고려한 차별화된 관리 방안의 마련이 필요하다.
특히 기존 모형에 기반해 부가적 서비스를 제공하는 상황이라면, 복수의 기업이나 조직이 관여하게 될 것이므로 적절한 역할 분담과 통제장치의 마련이 중요하다. 구체적으로, 의료기관에서 상용 AI 서비스를 사용하여 음성녹음 기반의 진료기록 작성 지원 서비스를 제공하는 상황을 생각해 보자. 이 경우 혹시나 환자 데이터가 상용 AI 서비스 제공자의 자체 목적을 위해 저장되고 이용되지 않을까 하는 우려가 제기될 수 있는데, 그러한 우려의 해소를 위해 기업용 도구(Enterprise API)를 사용하는 등의 안전장치를 마련하도록 하고 서비스 제공이 허용된 사례가 있다.
세 번째 단계는 AI 학습과 개발의 단계다. 이 단계는 AI 개발의 핵심 단계이기도 하지만 프라이버시 리스크가 집중되는 구간이기도 하다. 중요한 것은 관련 리스크를 어떻게 파악하고 관리할 것인지의 문제다. △데이터 수준 △모델 수준 △시스템 수준으로 나눠 대응 전략을 마련해야 한다. 데이터 수준에서는 데이터 전처리 과정에서 나타날 수 있는 리스크의 관리가 특히 중요하다. 데이터에 대한 접근통제가 중요할뿐더러, 고유식별정보를 포함해 삭제가 필요한 정보나 가명처리가 필요한 정보에 대한 분석과 통제가 이 단계에서 이뤄져야 한다. 연합학습의 적용이나 합성데이터의 생성을 비롯해 안전성을 고려한 추가적 방법론을 적용할 것인지에 대한 검토 또한 수행될 수 있다.
모델 수준에선 미세조정(fine-tuning)이나 정렬(alignment) 등 실제 결과값에 영향을 미치는 다양한 작업이 이 단계에서 진행된다. 이러한 작업의 과정에서 데이터에 대한 적절한 통제가 이뤄지도록 관리해야 한다. 또 시스템 수준에서는 응용프로그램인터페이스(API) 호출 권한의 통제나 다양한 입력 필터 및 출력 필터의 적용이 이뤄질 수 있다. 이 단계에서의 작업은 일회성 작업에 그치지 않도록 주기적 평가와 보완이 이뤄지는 피드백 경로를 설정해 운용하는 것이 특히 중요하다.
마지막 네 번째 단계는 시스템을 적용하고 관리하는 단계다. 이 단계는 배포 이전과 배포 이후로 나뤄 대응 전략을 세워야 한다. 배포 이전 단계에선 실제의 동작 환경을 전제로 AI 결과값의 정확도, 탈옥(jailbreak) 시도에 대한 저항성, 학습데이터의 노출 가능성 등에 대해 점검할 필요가 있다. 그리고 일단 배포가 이뤄진 이후엔 적절한 모니터링과 함께 이용자의 권리보장을 위한 방안을 마련해야 한다. 다만, 이용자로부터 개인정보에 대한 삭제나 처리정지의 요구가 있을 시, 현재의 기술론 학습데이터에서 해당 정보를 즉각 삭제하거나 처리정지를 하는 것이 곤란한 것이 일반적이다. 그러한 경우라면 출력 필터링을 우선 적용하고 추후에 재학습이 이뤄질 때 이용자의 요청을 충실하게 반영하는 방식으로 합리적인 방안을 모색해야 한다.
한편 위에서 본 각각의 단계가 실효성 있게 추진되기 위해선 무엇보다 AI 프라이버시와 관련한 조직 내부의 거버넌스 체계를 잘 구축하는 것이 중요하다. 개인정보 보호 책임자를 중심으로 해 개인정보 리스크 관리를 위한 내부 관리체계를 구축해 일관성 있는 업무 추진이 이뤄져야 한다. 이를 위해선 문제가 발생한 뒤에 사후적으로 해결책을 모색하는 자세가 아니라, AI 서비스 초기 구상과 디자인 단계를 포함한 라이프 사이클 전체의 과정에서 개인정보 이슈가 적극적으로 고려될 수 있는 체계를 마련하는 것이 중요하다.
AI 기술과 관련된 개인정보 이슈는 일거에 문제 해결을 도모하는 '일필휘지'의 태도로는 풀어가기 어렵다. AI용 고품질 데이터(AI-ready data)는 하루아침에 급작스럽게 만들어지지도 않는다. 세부 사항에 초점을 맞춘 꾸준한 관심과 일관된 투자가 고품질 데이터를 만들어 내기 위한 핵심 선결요건이다.
고학수 개인정보보호위원회 위원장 haksooko@korea.kr
〈필자〉고학수 위원장은 서울대 경제학과에서 학·석사, 미국 컬럼비아대에서 경제학 박사와 로스쿨(JD) 학위를 받았다. 이후 미국 로펌 휴즈 허바드 앤 리드, 국내 로펌 세종에서 변호사로 일했다. 연세대 법대, 서울대 법학전문대학원에서 법경제학, 개인정보보호, 인공지능 등의 영역을 연구했다. 아시아법경제학회장, 한국인공지능법학회장 등을 역임하며 '산업과 이론을 두루 겸비한 현장 중심형 학자'라는 평가를 받아왔다. 2023년 10월엔 유엔 AI 고위급 자문기구 39명에 포함돼 국제 거버넌스 상호운용성 분과 공동 분과장으로 활동하며, 한국의 AI 정책 분야 영향력을 크게 확장했다.