KBS 등 지상파 방송 3사가 최근 네이버를 상대로 소송을 제기함으로써 마침내 한국에서도 인공지능(AI) 저작권 소송이 시작됐다. 네이버가 자신들의 기사를 무단으로 이용해 AI 모델을 학습시켜 저작권법 및 부정경쟁방지법을 위반했다는 것이다. 미국에서는 이미 텍스트, 그림(이미지), 음악을 생성하는 AI 모델에 대하여 개발자를 상대로 많은 소송이 진행되고 있다.
AI 저작권 소송의 쟁점은 학습데이터 이용이 저작권 침해가 되느냐 여부다. AI 모델을 학습시키기 위해서는 엄청난 양의 데이터를 필요로 하고 학습데이터에는 저작물이 포함되어 있다. 그동안 AI 개발자는 학습데이터를 주로 인터넷상에서 수집·활용(복제)해 왔다. 타인의 저작물을 이용함에 있어서는 정당한 '권원'을 필요로 하는데, 정당한 권원이 없다면 저작권 침해로 연결된다.
정당한 권원으로는 저작권자로부터 이용허락을 받거나 저작권 제한규정이 적용돼야 한다. 웹상의 학습데이터를 활용하면서 저작권자들로부터 이용허락을 받은 개발자는 없는 것으로 보인다. 저작권 침해를 면하기 위해서는 저작권 제한규정이 적용되는 수밖에 없다.
◇TDM 예외
저작권 제한규정으로는 정보분석을 위한 복제, 곧 텍스트데이터마이닝(TDM) 예외규정과 공정이용을 들 수 있다. TDM 예외규정은, 자동화 분석기술에 의해 대량의 정보를 분석해, 추가적인 정보나 가치를 얻기 위해 저작물을 이용하는 경우에는, 저작권 침해를 면제해주는 것이다. 유럽연합(EU), 일본, 영국 등이 TDM 예외 규정을 가지고 있다.
한국에서 TDM 예외는 21대 국회에서 저작권법 개정안으로 발의되었으나 통과되지 못하였다. 개정안이 발의된 이후 2022년 11월 챗GPT-3가 출시된 것에 기인한다. 생성형 AI는 학습으로 그치는 것이 아니라 학습데이터와 유사한 산출물을 생성해 학습데이터와 경쟁을 한다거나, 상업적 목적의 TDM은 허용할 수 없다는 반론이 제기되었기 때문이다. 따라서 한국에서의 AI 학습데이터 이용에 의한 저작권 침해 여부는 공정이용 규정에 따라 결정된다.
◇공정이용 여부
공정이용은 저작물 이용의 목적이나 성격, 저작물의 종류나 용도, 저작물 이용에 의해 시장에 미치는 영향 등을 고려해 저작권 침해 여부를 판단하는 것이다. 문제는 공정이용 여부가 법원의 판결이 이루어질 때까지는 알 수 없고, 학습데이터를 이용하는 개별 사안에 따라 공정이용 여부가 달라질 수 있다는데 있다. 더군다나 법원에 의하여 공정이용 여부가 판단되더라도, 판결이 확정될 때까지 상당한 시일을 요한다. 이러한 문제점으로 인해 한국은 AI 저작권 문제해결 및 AI 산업발전에 있어서 딜레마에 처해 있는 상황이다. 이로 인해 저작권자는 학습데이터의 이용에 대하여 보상을 요구하기 어렵다. AI 개발자도 침해의 위험으로 인하여 저작물 이용을 포기하거나, 위험을 감수하고 저작물을 이용해야 한다. 이러한 상황은 한국의 AI 산업 발전을 위해서도 결코 바람직하지 못하다.
그렇다면 외국은 이를 어떻게 해결하고 있을까? EU는 2024년 8월 발효한 인공지능법(AI Act)을 통해 범용 AI 개발자로 하여금 EU 저작권법을 준수하도록 했다. 곧 AI 개발자는 저작권자로부터 이용허락을 받거나, TDM 예외규정이 적용되어야 침해책임을 면할 수 있다. 다만 AI 개발자는 저작권자가 자신의 저작물이 학습데이터로 이용되지 않을 것을 표시(유보)하지 않은 경우에 한해 이용할 수 있다. 따라서 AI 개발자는 학습데이터를 이용함에 있어서 저작권자의 유보 여부를 확인해야 하고, 이러한 유보 여부에 따라 학습데이터 이용 가능 여부도 좌우된다. 이러한 방식이 현실적으로 어떻게 작용할지, AI 산업발전에 얼마나 도움이 될지는 예측하기 어렵다.
공정이용 규정을 가지고 있는 미국은, 많은 소송이 제기되어 있다는 점만 제외한다면, 우리와 동일한 상황에 처해 있다. 다만 미국은 AI 개발자들이 언론사 등 '주요' 저작권자들과 저작권 문제를 합의해 해결하고 있다는 점이 다르다. 곧 오픈AI를 비롯한 AI 개발자들은 AP 통신 등 언론사 등과 합의해 저작권 문제를 해결하고 있다. 이들의 합의 내용은 공개되지 않았지만, AI 개발자와 저작권자가 상생할 필요가 있다는 것을 양측 모두 느끼고 있다는 것을 나타내는 것이다.
◇상생의 필요성
저작권자와 AI 개발자의 상생은 불가피하다. 저작권자들은 일정한 보상을 받는 등 생계 위협을 받지 않으면서 AI가 활용되기를 희망한다. 보상은 AI 기술제공 등 비금전적인 것도 포함될 수 있다. AI 개발자 측에서도, 얼핏 그럴듯해 보이지만 엉터리 답변을 제공하는 할루시네이션 현상을 방지하고, 최신의 내용에 대해서도 답변할 수 있도록 하기 위하여 학습데이터를 계속 필요로 한다. 현재 이러한 문제점을 해소하기 위해 널리 사용되는 것이 검색증강생성(RAG)이라는 방법인데, 이는 AI 모델이 기존에 학습받은 것 이외에 새로운 다른 데이터를 참조해 답변을 제공하도록 하는 것이다. 이같은 방법에 의해 최신 데이터를 반영한 답변을 제공하거나, 답변과 함께 출처까지 제공함으로써 할루시네이션 현상을 방지하거나 이용자가 신뢰할 수 있는 답변을 제공한다.
2023년 8월에 출시된 네이버의 하이퍼클로바 X도 새로운 학습데이터를 필요로 한다. 또 언론사의 기사나 서적 형태의 학습데이터는 최고 양질의 데이터로서 AI 성능을 향상시키는데 중요한 역할을 할 수 있다. 이는 한국에서도 저작권자와 AI 개발자가 상생할 여지가 얼마든지 있다는 것을 의미한다.
AI는 어느 누구도 피해갈 수 없는 시대적, 사회적 현상이다. 이번에 방송사가 제기한 소송은 저작권자와 AI 개발자가 상생의 길을 모색하는 장이 마련되는 계기가 될 수 있다. 소송의 종결이나 입법에 의해 해결하는 것은 상당한 시간을 요하므로, 시급을 다투는 AI 산업발전에 반드시 긍정적으로 작용하는 것은 아니다. 저작권자와 개발자는 학습데이터로 인한 현재의 딜레마를 극복하고 상생의 길을 모색하기를 기대한다. 이것만이 대한민국의 AI 산업이 발전할 수 있는 방법이다.
이대희 고려대 법학전문대학원 교수 it-law@korea.ac.kr
〈필자〉고려대 법학과에서 학사·석사를 받았고 미국 위스콘신대에서 박사를 받았다. 2007년부터 고려대 법학전문대학원 교수로 재직 중이다. 현재 세계지식재산기구(WIPO) 중재조정센터 패널리스트로 활동하고 있으며 문화체육관광부와 한국저작권위원회가 운영하는 'AI-저작권 제도개선 워킹그룹(협의체)' 좌장이기도 하다. 개인정보보호위원회 위원, 한국저작권위원회 위원, 부위원장, 위원장직무대행 등을 지냈다.