
독자 인공지능(AI) 파운데이션 모델 개발을 위한 학습용 데이터 공급기관 모집에 80여개 기업·기관이 몰렸다.
17일 정부·업계에 따르면 크라우드웍스 등 데이터 기업이나 출판사와 같이 고품질 저작 데이터를 보유한 국내 기업 다수와 국가기록원, 국사편찬위원회, 언론진흥재단, 통계청, 특허청, 한국문화정보원 등 공공기관이 독자 AI 모델 개발을 위한 데이터 공급기관으로 참여한다.
과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 이들 신청 기업·기관이 보유한 데이터를 토대로 LG AI연구원, 업스테이지, 네이버클라우드, SK텔레콤, NC AI 등 5개 컨소시엄이 필요로 하는 AI 학습용 데이터 수요를 확인하고 있다.
5개팀 수요와 고품질 데이터를 매칭, 100억원 규모 데이터를 효율적으로 신속하게 구매·제공하기 위한 절차다. NIA는 각 팀별 의견을 취합해 공통적으로 수요가 높은 데이터부터 확보, 이르면 이달 말부터 학습 환경을 지원할 계획이다.
140억원 규모 데이터셋 구축도 추진된다. 각 컨소시엄 내 데이터 특화 기업이 직접 AI 학습용 데이터를 확보·가공하고 학습에 최적화된 데이터셋을 구축한다. 5개 컨소시엄별 각 28억원의 예산이 편성됐다.
LG AI연구원은 한글과컴퓨터와 슈퍼브에이아이, 업스테이지는 플리토, 네이버클라우드는 트웰브랩스, SK텔레콤은 셀렉트스타, NC AI는 에이아이웍스와 고려대 등이 각각 컨소시엄 특화 데이터셋 구축을 주도한다.
이처럼 올해 하반기에만 최소 240억원 규모 새로운 AI 학습용 데이터 시장이 열린다. 데이터 업계는 이번 독자 AI 모델 개발 프로젝트를 계기로 저작권이 있는 데이터에 대한 합리적 가격이 책정되고 공정한 거래 시장이 조성되기를 바라고 있다.
고품질 데이터는 AI 성능을 좌우하는 핵심 자산이지만, 학습용 데이터에 대한 저작권 처리 등 관련 제도 공백으로 시장 형성과 제값 책정이 더디게 이뤄지는 현실을 고려한 희망사항이다.
정부는 독자 AI 모델 서바이벌 단계평가가 계속될 2027년까지 매년 약 300억원 규모 예산을 확보해 AI 모델 개발·고도화를 위한 데이터 확보와 가공을 지원할 예정이다. 2~3년간 정부 주도 수백억원 규모 데이터 거래 시장이 매년 유지되는 것이다.
업계 관계자는 “AI 모델 성능 강화를 위해 충분한 고품질 학습용 데이터 확보는 물론, 데이터 거래 시장을 활성화할 수 있는 절호의 기회”라며 “정부가 'AI 허브'를 통한 데이터 유통·거래 지원에서 나아가 멀티모달·AI 에이전트 등 AI 경쟁력을 지속 강화하기 위한 데이터 시장 조성에도 힘써야 한다”고 말했다.
박종진 기자 truth@etnews.com