
오픈AI, 구글 등 주요 기업의 인공지능(AI) 모델이 책 20만여권을 불법 복제한 데이터를 학습했다는 연구 결과가 나왔다.
7일 미국 민간 연구단체 전미경제연구소(NBER)는 최근 '불법 복제 데이터 접근이 거대언어모델(LLM) 성능에 미치는 영향' 논문에서 “LLM은 상당한 경제적 가치를 입증했지만, 저작물을 불법 복제한 콘텐츠에 의존해 법적·경제적·기술적 문제를 야기했다”며 이같이 설명했다.
논문을 작성한 연구진은 오픈AI 'GPT-4.0', 구글 '제미나이', 메타 '라마 3.1', 앤스로픽 '클로드 하이쿠' 등을 대상으로 불법 복제 데이터 학습 여부를 파악했다. 이들 모델은 스티븐 킹, 제이디 스미스 등 유명 작가의 저서를 포함한 약 19만6000여권의 책을 불법 복제한 'Book3' 데이터셋을 학습한 것으로 알려졌다.
연구진은 Book3 데이터셋에 포함된 책과 포함되지 않은 책 절반으로 구성된 1만3000여개 데이터를 수집, 주요 AI 모델의 Book3 데이터셋 학습 여부를 조사했다. 연구는 책의 구문 중 고유 명사를 빈칸 처리하면, AI 모델이 정확한 답을 채우는지 확인하는 식으로 진행됐다.
조사 결과, 주요 AI 모델들은 불법 복제 데이터인 Book3 데이터셋 관련 질문에 대해 보다 정확한 답변을 생성했다. GPT 3.5 터보와 GPT 4.0의 답변 정확도는 21~23% 높았다. 라마 3.1, 클로드 하이쿠, 제미나이 등의 답변 정확도는 7~9% 높은 것으로 나타났다.
연구진은 “AI 모델 개발 과정에서 불거진 저작권 침해·불법 복제 논쟁이 지속되고 있다”며 “이 연구가 AI 모델 개발자의 저작권 데이터 사용에 대한 공정 사용 범위 등 저작권 정책에 영향을 끼칠 것”이라고 강조했다.
현대인 기자 modernman@etnews.com