무하유, AI 기사 표절 문제 해결 위한 유사도 비교 기술 개발

자연어를 이해하는 실용 AI 기업 무하유(대표 신동호)가 한국콘텐츠진흥원이 주관하는 ‘AI가 작성한 뉴스 기사에 특화된 유사도 비교 기술 개발’ 과제에 참여기업으로 선정됐다고 29일 밝혔다.

이번 과제는 생성형 AI를 이용해 작성된 기사 저작물(뉴스 기사)에 특화된 유사도 분석을 진행하고, 이를 표준화된 수치로 표현하는 기술 개발을 목표로 한다. 생성형AI로 작성된 저작물의 복제·인용·표절 등의 문제를 해결하고, 무분별한 확산을 막기 위함이다. 사실 확인이 어려운 AI 작성 기사가 빠르게 확산될 경우, 부정확한 정보를 포함한 뉴스가 광범위하게 퍼질 우려가 있다.

무하유는 이번 과제에서 AI를 활용해 생성된 콘텐츠의 저작물 유사도 비교 기술 개발을 담당한다. 지난 13년간 AI 표절검사 서비스 ‘카피킬러’를 운영하며 쌓아 온 데이터 분석 역량과 텍스트 유사도 비교 기술, 자연어 처리(NLP) 기술 등을 바탕으로 연구 개발 요건을 구체화했다. 100만 건의 뉴스 데이터를 연구했으며, 이를 바탕으로 유사도 구성 요소를 마련하고 각 요소별 표준 비율을 정의한다.

또한 유형별 메타 데이터, 형태소 등 유사도를 구성하는 요소들을 관리하는 기술도 개발하게 된다. 저작물 데이터 확보를 위해 데이터를 수집 및 추출하고, 메타 식별 플랫폼을 구축할 예정이다.

한편 무하유는 무분별한 표절을 사전 예방하고, 저작물 윤리 의식을 도모할 수 있도록 다양한 표절검사 서비스를 운영하고 있다. 대표 서비스 ‘카피킬러’는 표절, 출처 미표기, 중복 게재 등 사람이 하나하나 파악하기 힘든 검토 작업을 AI 기술을 이용해 빠르게 진행한다. 또한 최근AI 기반 표·이미지 식별 솔루션인 ‘비주얼체커’를 출시했으며, 이를 통해 논문 내 삽입돼 있는 표나 이미지에 대한 표절 여부까지 판단하고 있다.

작년 9월에는 생성형 AI가 쓴 문장을 탐지해주는 ‘GPT킬러’ 서비스를 선보이며, 생성형 AI 오남용을 막는데 앞장서고 있다. AI가 문서를 문단 단위로 분석한 후, 각 부분에서 생성형 AI로 작성됐을 확률을 판단한다. 생성형 AI가 만들었을 법한 토큰(단어)의 확률을 역추적해 94%의 높은 정확도로 생성형 AI 사용 여부를 파악한다.