
저작권법은 창작자의 권리를 보호하는 동시에 공정한 이용을 보장함으로써, 사회적 이익과 문화·산업 발전의 균형을 도모한다. 그러나 AI 기술의 발전으로 대량의 데이터 활용이 필수적이 되면서, 저작권법과 데이터 윤리 사이의 충돌이 심화하고 있다.
기계학습을 위한 데이터의 확보를 위해 텍스트·데이터 마이닝(TDM)을 입법화하거나 또는 실제 소송에 적용되고 있다. AI 모델 구축 과정에서 방대한 데이터를 이용하면서 저작권법이 어떻게 적용될 것인가에 대한 논쟁이 지속되고 있다. 학습 데이터에 적용될 수 있는 범위에 대한 명확한 기준이 요구된다. 데이터 윤리는 AI 모델의 학습과 결과물의 공정성을 보장하는 중요한 요소로 작용하지만, 윤리적 고려가 법적 규제와 어떻게 조화를 이루어야 하는지는 여전히 불확실하다. TDM 규정을 두고 있는 나라는 공정이용 규정을 두고 있지 않기 때문에 입법화하고 있는 것도 사실이다. 지난해 독일 지방법원에서는 저작권법에 근거하여 학습데이터의 TDM에 대한 무죄판단을 내리기도 했다.
인공지능 학습을 위한 데이터 수집 과정에서 저작권법과 데이터 윤리는 밀접하게 연결된다. 빅데이터 처리와 인공지능 학습 과정에서는 데이터의 복제, 분석 등이 필수적으로 발생하며, 이를 무분별하게 활용할 경우 저작권법 위반 행위가 될 가능성도 있다. 우리 저작권법은 TDM 규정을 두고 있지 않고, 공정이용 규정만 두고 있다.
특히, TDM의 특성상 불특정하게 수집된 데이터 안에 저작물이나 개인정보가 포함될 수 있어 관련 법과 충돌할 가능성이 높다. 이는 단순한 법적 문제를 넘어 데이터 수집의 윤리성, 프라이버시 보호, 그리고 창작자의 권리 존중과 같은 윤리적 문제와도 연결된다. 데이터 수집에서 접근에 제한된 표지(robots.txt)의 강제성이 없는 경우, 이에 대한 접근여부는 저작권법이 아닌 윤리적인 고려를 통해서 판단하여야 할 사항이기도 하다. 나아가 이러한 행위유형을 공정이용으로 볼 수 있는지 여부이다. 공정이용은 법적인 근거를 갖지만, 일반조항이 갖는 성격상 명확한 기준을 제시하는 것은 아니다. 대략적인 방향을 제시하지만, 법원은 이를 바탕으로 최종적인 결론을 내릴 수 있다는 점에서 해석론의 확장이지, 권리창설로 보기는 어렵다. 이에 대해 법원이 권리를 창설하는 것으로 오해할 수도 있을 것이다.
AI 윤리나 데이터 윤리가 저작권법에 지나치게 개입할 필요는 없겠지만, 윤리적 고민이 법의 해석과 향후 인간이 아닌 저작자의 등장에 영향을 미칠 가능성은 높다. 다만, 지나친 윤리의 법화(法化)는 지양되어야 한다. 기술 변화에 적응하기 위해서는 법의 규제적 속성보다는 윤리적 논의가 합리적이다. 다만, 그 논의 방향은 윤리를 배제하는 것이 아니라 법과 함께 균형 있게 고려해야 한다. 데이터 윤리와 저작권법은 모두 기술혁신과 개인의 권리 보호 사이의 균형을 추구한다. 생성형 AI의 학습을 위한 데이터셋이 인터넷에 공개된 정보를 크롤링해 제작되는 과정에서, 이용 허락 조건에 맞지 않게 이용할 경우 저작권 침해나 데이터 윤리로부터 자유로울 수 없다. 그렇기 때문에 AI 기술 발전이라는 사회적 가치와 창작자의 권리 보호라는 가치 사이의 윤리적 균형점을 찾아야 한다.

AI와 관련하여 저작권법과 데이터 윤리는 전통적인 저작권법의 해석과 적용이라는 법적 가치만이 아닌 기술적으로 유연하게 상황을 바라보아야 한다. AI는 사회적 합의를 포함한 윤리적인 고려까지도 필요로 하는 상황이다. 저작권법과 윤리의 관계는 법적인 가치판단만이 아닌 사회적, 공익적 여부라는 비교형량을 통해 결론에 이르러야 한다. AI 모델의 고도화를 위해서는 지속적인 데이터가 공급되어야 한다. 수집된 데이터의 오남용으로 인한 특정 집단에 대한 편견과 차별, 불평등 심화와 같은 다양한 사회적 이슈가 제기되고 있다. 그렇기 때문에 데이터의 중요성과 이에 따른 윤리적, 법적 책임을 강조하는 것이다.
데이터 윤리가 확립될 경우, AI 시스템에 대한 신뢰를 확보할 수 있다. 이는 데이터의 수집 및 이용 과정에서 관련 법을 준수하는 것이 필수적임을 의미한다. 법적 규정을 준수하는 데이터 활용 방식은 AI 개발 기업과 서비스 제공자가 장기적으로 법적 분쟁을 예방하는 데 기여할 수 있으며, 이용자의 신뢰를 얻는 기반이 된다.
데이터의 윤리적 이용은 데이터의 질적 가치를 높이는 효과를 가져올 수 있으며, 데이터 처리 과정에서 적절한 정제 과정을 거치게 함으로써 윤리적 문제를 최소화할 수 있다. 특히, 데이터 편향성 문제를 해결하는 데 기여할 수 있다. AI 모델이 편향된 데이터를 학습하면 알고리즘이 편향된 결과를 내놓을 가능성이 크며, 이는 사회적 불평등을 심화하는 결과로 이어질 수 있기 때문이다.
데이터 편향 문제를 해결하기 위한 방안으로는 가치중립적인 키워드와 변수를 설정하여 보다 공정한 데이터 선별과 이용이 가능하도록 하는 접근이 있다. 또한, AI 모델이 학습하는 데이터의 다양성을 확보하여 편향성을 줄이는 방법도 고려해야 한다. 예를 들어, 성별, 연령, 국적 등 다양한 인구통계학적 특성을 반영한 데이터 세트를 구축하는 것이 바람직하다. AI 모델이 설명 가능성(explainability)을 갖추도록 연구하는 것도 데이터 윤리 실현의 중요한 방향이 될 수 있다.
몇 년전부터 ‘머신 언러닝(machine unlearning)’에 대한 연구가 이루어지고 있다. 언러닝은 AI 모델에 학습된 데이터를 제거하는 것이다. 실상 문제되는 생성물이 반복되지 않도록 관련 데이터에 대한 ‘기억’을 지우는 것이다. 필터링은 원천적인 삭제가 아니기 때문에 우회하는 탈옥(jail break)을 통해 또다시 문제되는 생성물을 만들어 낼 수 있기 때문이다.
데이터 윤리를 보장하기 위해서는 법적 규제와 함께 정책적 대응도 중요하다. AI 개발 기업이 데이터 윤리를 준수하도록 유도하기 위해 자율규제 모델을 도입할 수도 있으며, 정부 차원의 데이터 윤리 가이드라인을 강화하는 방안도 고려할 수 있다. 데이터 편향성이 사회적 차별을 고착화하거나 그러한 가능성이 높은 경우, 해당 알고리즘을 개발·운영하는 기업에 대한 강력한 규제가 필요할 것이다. 반면, 의도적이지 않은 데이터 편향에 대해서는 기술적·정책적 유연성을 유지하면서 개선 방안을 마련하는 것이 중요하다.
AI 모델의 공정성과 신뢰성을 확보하기 위해서는 다양한 데이터를 학습하도록 하는 것이 필수적이다. 특정 집단이나 특정 속성만을 반영한 데이터로 AI를 훈련할 경우, 모델이 갖는 편향성은 더욱 심화될 수밖에 없다. 따라서, 다양한 관점과 경험을 반영하는 데이터 세트를 구축하는 것이 필요하며, 데이터 접근성과 품질을 동시에 고려한 법적·윤리적 기준을 마련해야 한다. 이러한 조치를 통해 AI 기술 발전과 저작권법의 조화를 이루고, 기술혁신과 사회적 가치를 동시에 실현할 수 있는 기반을 마련할 수 있을 것이다.
