오픈AI·네이버 피소…“AI 학습 데이터 확보·저작권 해결 시급”

정부가 그래픽처리장치(GPU) 등 인공지능(AI) 인프라 논의를 지속하는 가운데 양질의 학습용 데이터 확보에도 관심을 기울여야 한다는 지적이 제기된다.

해외에서는 오픈AI, 국내에서는 네이버가 데이터 학습 관련 송사에 휘말린 상황에서 충분한 학습용 데이터셋 확보나 저작권 관련 명확한 제도나 기준 없이는 AI 기업 부담과 불필요한 논란이 지속될 것이라는 우려 목소리가 크다.

24일 AI업계·학계에 따르면 스타트업 등 AI 기업을 중심으로 고품질 데이터 확보에 대한 부담과 우려가 큰 상황이다.

국내 AI 기업은 웹사이트 크롤링(방대한 데이터 추출)·스크래핑(특정 정보 추출) 등으로 학습용 데이터를 확보하거나 아르바이트 구인을 통해 글과 사진·영상 등 단편적으로 학습용 데이터를 수집하고 있다.

그러나 이같은 방법으로 양질 데이터를 확보하는 데에는 한계가 있다. GPU 수만장 확보를 통해 AI 개발·고도화와 서비스에 필요한 기반을 만들어도 데이터 없이는 거대언어모델(LLM) 등 AI 성능 강화가 어려운 상황을 고려해야 한다는 지적이 나온다.

챗GPT와 같은 생성형 AI 서비스를 제공하기 위해서는 AI 모델·LLM 학습이 선행돼야 하고 이를 위한 양질의 충분한 학습용 데이터가 요구된다. 오픈AI의 과거 모델인 GPT-3 학습에만 파라미터(AI 작동에 영향을 미치는 외부 데이터) 1750억개가 투입됐다.

업계는 공공데이터 개방·학습용 데이터 시장 조성 등 충분한 AI 학습용 데이터셋 확보를 위한 제도적 지원이 필요하다고 보고 있다.

이와 함께 저작권 해결도 요구한다. 저작권법상 저작권 침해가 면제되는 '공정이용' 대상에 AI 학습용 데이터를 포함하는 방안 등 제도화가 필요하다는 의견이다.

딥시크의 깜짝 성공 역시 파라미터(약 6710억개 규모) 등 충분한 데이터가 있었기에 가능했다고 평가된다. 한 대규모 다중과제 언어이해 평가(MMLU)에서 딥시크 'R1'이 90.9점을 받았는데 업스테이지 '솔라 프로'가 약 220억개의 파라미터로 81.4점을 기록, 국내 AI 기업도 충분한 학습용 데이터가 확보되면 글로벌 톱티어 경쟁이 가능할 것으로 예상된다.

박종진 기자 truth@etnews.com