NIA·TTA, LLM 학습용 데이터 유해 표현 검출 모델 공개

2025-04-14

한국지능정보사회진흥원(원장 황종성, 이하 NIA)과 한국정보통신기술협회(회장 손승현, TTA)는 AI허브를 통해 대규모 언어 모델(이하 LLM) 학습용 데이터 내의 ‘유해 표현 검출 인공지능 모델(이하 인공지능 모델) 및 유해 표현 학습용 데이터(이하 데이터)’를 공개했다고 발표했다.

공개된 인공지능 모델은 주어진 말뭉치 데이터 내에서 유해 표현을 검출하고 다양한 유해 표현 카테고리로 분류하는 기능을 수행할 수 있다.

해당 인공지능 모델 및 데이터는 과기정통부 초거대AI 확산 생태계 조성 사업의 일환으로 LLM 데이터의 품질검증 과정에서 주요 특성 중 하나인 ‘유해성’을 측정하기 위해 개발하였으며, 자체 성능 검증 결과 높은 정확도(80~90%)를 달성하여 유해 표현 검출의 효용성을 입증했다.

본 인공지능 모델에 학습시키기 위해 구축된 데이터는 ▲유해 표현 검출용 데이터 20만 건과 ▲유해 표현 카테고리 구분용 데이터 21만 건으로 구성되어 있다.

해당 데이터는 한국어 유해표현 오픈소스 데이터를 토대로 AI허브의 ‘온라인 구어체 말뭉치 데이터(’21)’ 및 ‘지식그래프-투-텍스트 데이터(’23)’를 활용하여 문체의 다양성(구어체, 문어체)을 확보하는데 중점을 두었다.

또한, 국가인권위원회의 혐오 표현에 대한 안내서 등*과 같은 신뢰할 수 있는 가이드라인을 참조하여 유해 표현 및 유해 카테고리(11개)를 명확하게 정의하고 이를 재가공해 데이터의 일관성과 신뢰성을 확보했다.

이번에 공개된 데이터 및 인공지능 모델은 AI허브에 개방되어 누구나 활용할 수 있으며, LLM 관련 서비스 및 데이터 구축사업에 적용함으로써 인공지능이 생성하는 콘텐츠의 안전성 강화 및 다양한 산업 분야에서 인공지능 윤리 강화에 기여할 것으로 예상된다.

NIA 황종성 원장은 "인공지능 기술의 발전은 기술적 진보뿐만 아니라 사회적 책임을 담보할 수 있는 윤리적 고려가 반드시 병행되어야 하고, 이는 지속 가능한 인공지능 생태계 조성을 위한 핵심 요소”라며 “이번 인공지능 모델 및 데이터의 공개가 한국어 LLM의 신뢰성 및 안전성을 강화하기 위한 계기가 될 것으로 기대한다.”라고 말했다.

이어 “NIA는 앞으로도 윤리적 책임을 고려한 양질의 인공지능 데이터 구축 및 활용 기반 마련을 통해 국내 인공지능 생태계 지원을 확대해 나갈 것”이라고 덧붙였다.

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.