
무하유는 ‘표절’ 잡아내는 데 도가 튼 곳이다. 국내 대학의 96%가 이 회사가 만든 ‘카피킬러’란 표절 검사 서비스를 쓴다. 정부 인사청문회에서도 심심찮게 임명직 공무원의 과거 논문 표절 시비가 이는데, 이때 잘잘못을 가리는 기술도 주로 카피킬러다.
이 카피킬러를 만든 무하유가 흥미로운 서비스를 잇달아 선보였다. 가장 최근에는 ‘GPT킬러’가 있다. 표절에서 한 발 더 나아가 인공지능(AI)이 쓴 한국어 문장을 잡아낸다. 한국어 자연어 이해모델을 학습한 AI가 검사 문서를 문단 단위로 분할해서, 각 문단에 대한 챗GPT 작성 확률을 분석하는 식이다.
원래 대학에서는 학생들이 남의 리포트를 베꼈나 안 베꼈나 검사해 왔는데, 이제는 AI가 쓴 문서가 학점을 매겨야 하는 교수들의 골칫거리가 됐다. 표절 검사하는 무하유에, AI가 쓴 보고서도 잡아 달란 민원이 들어왔다. 자연스러운 서비스 확장이다.
그런데 이 기술이 남의 것을 베꼈는지, AI가 문서 작성에 관여했는지를 알아내는 것이다보니 자기소개서의 진위 여부를 판별하는데도 효과가 있었다. 몇해 전부터는 자소서 보고 심층 면접을 뽑아내거나, 혹은 자소서의 표절, 감점 요인 선별 등에 핵심을 맞춘 ‘프리즘’이란 채용 서비스를 내놓았다가, 요즘엔 아예 AI가 1차 면접을 영상으로 대신하는 ‘몬스터’로 사업을 키웠다.
무하유를 만든 이는 검색 전문가 출신 신동호 대표다. 데이터의 디지털화가 폭발적으로 일어나던 2010년대에, 인터넷에 급작스레 늘어난 문서들 사이 필요한 것만 찾아내는 서류 검토 서비스를 준비하다 표절이 심각한 사회 문제가 되고 있다는 걸 깨달았다. 빠른 시간 내 문서를 검색, 유사도를 확인해 표절을 잡아내던 것이 카피킬러의 시작이다.
문서 간 유사도로 표절을 추적하는 게 그렇게 어려운 일일까? 신동호 대표를 최근 서울 성수동에 위치한 무하유 사무실에서 만났다. 그는 “인터넷으로 연결되어 있는 수십, 수백만 건의 문서를 색인해 두고, 문서 크롤링을 해서 필터링 한 다음 여기에 표절 탐지 기술까지 묶어내는 것은 기술적 난이도가 있는 일”이라면서 “카피킬러의 기술력이 쌓였기 때문에 최근에는 GPT 킬러를 접목해 (자꾸만 변화하는) 이용자들의 요구사항을 반영할 수 있었다”고 말했다.
GPT 킬러는 왜 태어났고 어떻게 작동되나
원래는 표절 검사로 잘 알려진 회사다. 그런데 GPT 킬러를 내게 된 배경은 무엇인가?
표절은 타인이 쓴 것을 정당하지 않게, 자신이 쓴 것처럼 가져다 쓰는 거를 표절이라고 한다. 그런데 여기서 고민이 생겼다. GPT는 타인이 아니지 않나?
그렇다. GPT는 그냥 문장을 생성해내는 것 아닌가
넓게 해석을 해보면 AI가 쓴 건 내가 쓴 게 아닌데, 마치 내가 쓴 것처럼 내보내면 표절이 아니겠느냐고 생각할 수 있다. 그렇다면 AI가 쓴 것은, 출처 표시를 해야 하지 않겠나. 이렇게 생각을 정리하고 있었다. 그러다가 2023년 챗GPT가 나왔다. 그리고, 고객사들에서 막 전화가 오기 시작했다.
무슨 일 때문이었나
학생들이 챗GPT로 보고서를 쓰고 있는 것 같은데, 뭔가 문제가 있지 않느냐는 거였다. 학생들이 과제물을 냈는데, 너무 잘 써서 교수들이 공황에 빠진 거다.
아, 얘가 이렇게 잘 했을리가 없는데(웃음)
학교라는 곳에서 이게 왜 문제가 되는 거냐면, 누구는 정성껏 공부해서 썼는데 C 학점을 맞고, 누구는 챗GPT를 이용해 썼는데 A를 맞게 되면 안 되지 않나. 학사 행정 자체가 마비가 되니까 교수들도 공포가 생겨서 학교에 연락을 했고, 학교 측에서도 대처방법을 찾아가 카피 킬러를 쓰고 있으니까, 우리 회사에 일단 전화를 해 본 거다. 그리고는, 기자들이 연락오기 시작했고 투자사에서도 막 연락이 오더라. 큰일 났다 싶었다.
해결을 하긴 해야겠구나!
의사결정을 빨리 하고, “다음 학기부터는 쓸 수 있도록 해드리겠다”고 얘기했다. 그리고는 정말 죽어라고 6개월동안 고생해서 솔루션을 만들었다. 왜냐면, 주요 고객들이 학교다보니까 학사 일정에 맞춰서 서비스를 해야 했다. GPT 킬러를 많이 쓰게 되는 시점이 학기 중간이나 학기말인데, 그때 사용량이 확 올라가니까 그때는 서비스를 제공해야 중간 리포트를 검사할 수 있지 않겠나. 그 일정에 맞춰서 정말 열심히 달렸다.
아니, 그런데 표절은 검색해서 같은 구절이 있는 남의 문서를 찾아낼 수 있지 않나. 그런데 AI가 쓴 건 어떻게 걸러내나? 물론 AI도 기존 데이터를 학습한 결과지만, 그래도 그 문서를 그대로 베껴서 새 문서를 생성하는 것은 아닌데
이해해야 할 포인트가 있다. AI로 쓴 문서를 찾는 것은 일종의 필체 감정과 같다. 예를 들어서, 남혜현 기자가 쓴 기사를 100개 정도 읽어보고 나면 다음에 대충 어떤 기사를 봤을 때, “아 이건 남 기자가 쓴 거 아닐까?” 싶은 스타일이 있다. 다들 비슷한 내용을 담은 기사라서 의미는 중복되더라도 개인마다 고유한 표현이 있기 때문이다.
마찬가지로, AI에게도 고유의 필체와 같은 패턴이 있다. 사람과 AI가 똑같이 “AI에 대한 전망’이라는 기사를 쓰고, 그게 그 내용(의미)이 비슷하다고 하더라도 표현은 다르다.
그걸 어떻게 알아내나?
GPT의 원리 자체가 다음 토큰의 예측을 계산하는 것이기 때문에, (이 단어 다음에 그 단어가 올) 확률이 높은 쪽으로 가게 되어있다. 그런데 인간이 쓰면 예상했던 것과는 다른 단어가 튀어 나온다. 원래는 ‘못’이라는 단어 뒤에 ‘망치’가 나올 확률이 크다면, 인간은 갑자기 ‘마이크’라는, 아주 튀는 표현을 쓰기도 한다는 거다.
다시 말하면, 기계가 쓴 것은 아주 높은 확률로 무난한, 평균 값을 수렴하는 식의 문장을 작성하는 패턴을 갖는다. 그런 문장은 기계가 썼을 가능성이 높다. 인간은 그 정도가 못 된다.
인간은 그 정도가 못 된다는 말은 어떤 뜻인가
사람이 쓰면 표현이 들쑥날쑥하고, 앞뒤가 바뀌거나 문법, 맞춤법이 틀릴 수도 있다. 확률값의 변동폭이 좀 크게 나타난다. 그래서 이런 문장, 문단은 사람이 썼다고 판단하는 거고, 확률 분포가 일정하게 나오면 기계가 쓴 것으로 판단한다.
나중에 GPT가 발전해서 사람처럼 일부러 예측을 틀리게 쓸 수는 없을까?
그런 질문을 많이 받았다. 그런데 사실, 그런 질문은 유의미하지 않다. GPT가 발전한다는 것은, 이 분야에서 전문성 있고 심도 깊게 논리 구성을 한다는 것이라서다.
뒤집어 말하면, 인간은 예술성을 위해서도 다르게 쓸 수 있지만, GPT는 예술성을 위해 튀는 쪽으로 발전하지는 않을 것이란 뜻인가?
학습을 하려면 할 수야 있겠지만, 그것 역시 (학습 데이터 내에서의) 패턴이 어느 정도는 있을 거다.
탐지의 정확도는 어떻게 되나?
탐지의 정확도는, 실험을 해보면 (문서의) ‘길이’와 관계 있다. 딱 한 문장만 갖다 놓고 보면 사람이 쓴 것인지, 기계가 쓴 것인지 잡아내기 어렵다. 그런데 한 단락 정도 문장이 이어지면 패턴이 잡힌다. 예를 들어 자기소개서를 통째로 AI로 생성했다면, 거의 100% 잡아낼 수 있다. 이건 틀려본 적이 없다.
AI 잡아내는 기술, 면접에서도 쓴다
표절과 AI를 잡아내던 기술로 무하유가 더 진출한 영역은 ‘인사관리(HR)’다. AI가 쓴 자기 소개서를 걸러내는데 더해, 최근에는 AI로 영상 1차 면접을 보게 했다. 답안지를 몰래 찾아보는 부정행위를 막기 위해 면접 시 시선 처리를 확인하는 것 외에, 본인이 직접 쓴 자기소개서를 바탕으로 지원자 별 맞춤 질문을 생성한다. 때문에, 자기소개서 내용의 진짜 가짜 여부를 파악하거나 대리 시험과 같은 부정행위를 막을 수 있다는 것이 이 회사 측 설명이다. 채용 서비스로 한 발 더 나아간 무하유의 계획에 대해서도 더 물었다.
리포트가 아니라, 자소서에서도 GPT킬러가 많이 쓰이나?
도메인에 대한 학습을 시키고 있는데, 우선적으로 들어간 영역이 자소서와 과제물, 논문이다. 자소소에 대한 탐지율이 굉장히 높다. 지금 시장을 봐도, 논문을 쓸 때 “챗GPT로 썼어요”라고 말을 하면, 그건 지금은 그렇게 문제가 안 된다. 가이드 상 “쓰지 마시오” 정도의 제재가 있는 것이지, 크리티컬하게 문제 삼진 않는다.
그런데 기업에서 자소서는 심각한 문제로 본다. 채용 여부를 결정하는 단계에서 AI가 쓴 자소서는 채용 취소가 될 만한 사유다. (자소서를 AI가 쓴다는 것 자체가) 내 경험도 아닌 것을 만들어 낸 것이고, 남을 속이는 일이라서다. 그런 친구들은 걸러내고 싶은 욕구가 있으니 기업 입장에선 페인 포인트가 강력하다.
사람들이 정말로 AI로 자소서를 많이 쓰나?
GPT킬러 서비스를 시작한 이래, 엄청나게 많은 양의 자소서를 문서 검토하는 용역을 받아 검사하고 있다. 로그가 남아 있는데, 2024년 기준으로 연초에는 20~30% 수준이었다면 지금은 50~60%를 넘어간다. 점점 챗PGT를 “대부분은 쓴다”라는 느낌이 들 정도다. 물론, 일부는 사람의 손을 거쳐 수정되고 있지만, 그럼에도 불구하고 2025년 초에 들어서는 “어마무시하게 쓴다, 이게 일반화됐다”라고 굉장히 크게 느낄 정도다.
그런데 사람이 손을 좀 보면, 못 걸러내는 건 아닌가?
카피킬러의 경우 6~7어절 단위로 표절 영역을 찾아주지만 아직 GPT킬러는 문단 단위나 혹은 두세문장 단위로 찾아내고 있다. 그래서 현재로서는. 이 단락에 있는 전반부 문장은 AI가, 마지막 . 뒷부분은 사람이 쓴 것 같다” 정도의 수준에서 제공한다.
자소서 잡아내던 일에서, 이제는 AI로 면접을 본다고 했는데. AI로 면접을 본다고 생각하면 어쩐지 기분이 이상하다
AI로 보는 면접이 1%에 안에 드는 천재를 찾아낸다, 이런 식의 면접은 아니다. 오히려, 리스크 관리 관점에서 작동한다. 결격 사유가 있을 만한 문제점을 찾는 쪽으로 가고 있다. 일반 면접관과 비슷하게 대화 인터페이스를 만들었고, 꼬리에 꼬리를 무는 질문으로 가고 있다. 아직은 질문과 질문에 텀(시간)이 있다는 것이 기술적으로 개선해야 할 부분이지만, 응시자의 답변을 이해한 후에 질문을 다시 던지는 방식으로 가고 있다.
면접 서비스를 하면서 고민이 드는 점이 있나?
되려 내가 묻고 싶은 것이 있다. 사람을 채용할 때 외모를 봐야 하나?
외모가 능력과 결부된다고 생각하진 않는다. 그렇지만, 서로 불쾌감을 주지 않을 정도의 깔끔함이나 그런 것은 볼 수도 있지 않을까?
어려웠던 이유 중 하나가 그거다. 심리학 책도 찾아봤다. 사람들이 “내면이 중요하다면서 왜 외모에 열광하나” 이런 내용이다. 공정성을 중요하게 보면서도, 사실은 다 외모를 본다. 현장에서는 호감이 가는 외모가 굉장히 중요한데, 그렇다면 AI가 보는 면접에서도 외모 분석을 어디까지 해야 하느냐, 이런 고민을 안 할수가 없다. 그게 서비스 이용자(구인자)의 만족도에 영향을 미칠 수밖에 없으니까, 우리도 기술적 판단에 대한 고민이 많다.
그 외에 사람을 뽑을 때 AI가 중요하게 판단하는 기준이 있나?
또, 역량을 측정하는 것에도 여러 평가지표를 만들어 놓았다. 책임감, 주도성, 스트레스 관리 역량, 리더십, 대인관계, 고객 지향형, 전문성, 등 26가지 정도의 주요 도메인이 있다. 각 회사마다 가장 중요하게 요구하는 역량이 다른데, 그에 맞춰서 평가하는 방식이다.
사람들이 AI가 면접을 보는데 거부감을 갖진 않나?
키오스크와 같다. 키오스크 만족도 조사를 하면 나눠지지 않나. 쓰기 편하다는 사람도 있고, 너무 기계 같아서, 실수를 하면 처음부터 다시 해야 하는 기계 특유의 갑갑함이 있단 사람도 있고. 그렇지만 키오스크의 핵심 밸류는 ‘시간과 공간의 효율화’다. 면접도 마찬가지다. 지방에서 올라올 경우 엄청난 비용이 발생하는데, 언제 어디서든 면접을 볼 수 있다는 것은 매우 효율적인 방식이다. 인사 담당자 입장에서도 AI로 면접자를 30~40% 탈락 시키면 시간과 공간을 절약할 수 있다.
검사, 검증, 평가라는 단계를 표절에서부터 면접까지 이어오고 있다. 더 나아갈 만한 부분이 있나?
가짜(fake) 뉴스를 걸러내는 데 쓰일 수 있다고 본다. 이게 팩트를 검증한다는 개념이 아니라, 기존에 갖고 있던 카피킬러 기술을 활용한다면 뉴스(문서) 간 비교를 통해서 이 뉴스가 ‘유효한지 아닌지’를 걸러낼 수 있을 거라고 본다. 서로 상충하는 내용의 뉴스가 있다면, 공개된 기존의 자료에 부합한 내용의 뉴스가 사실에 가까울 확률이 높다. 기술적 유효성을 지금 검증 중이다.
학교 시험에도 구술평가 체계를 만드는 것 역시 준비 중이다. 지필 고사로는 AI가 쓴 것인지 아닌지 찾아내기 점점 어려워진다. 그러면, 학생이 쓴 답안지를 몬스터(무하유가 만든 AI 영상 면접 솔루션)에 올려놓고, AI가 그 답안지를 바탕으로 학생에게 질문을 하는 거다. 구술고사인 셈인데, 이 답안을 무슨 의도로 썼는지, 이 답안에서 특정 키워드는 어떤 뜻인지 설명해보라고 물으면, 진짜로 이 학생이 해당 내용을 아는지 모르는지 검증할 수 있지 않겠나. 이건 현재 AI 면접에서도 쓰이는 기술이다.
조교가 AI로 바뀌는 거겠다
미래는 구술 평가 방식으로, 그렇게 바뀔 것 같다.
고민하는 점이 있다면?
확장성의 문제다. 금융이나 쇼핑은 성공하면 엄청나게 큰 시장을 가진다. 무하유는 안정적인 서비스를 하고 있지만, 독특한 서비스이다 보니 외롭기도 하다. 그래서 일본을 비롯해 동남아 시장 등으로 서비스를 확대하고 있다. 그렇게 시장을 키우려는 거다. 2026년 상장을 준비하고 있는데, 시장을 확대하는 것에 대한 근본적 고민을 하고 있다.
또, 기업은 기본적으로 어떤 문제를 해결하는 걸 미션으로 삼게 되지 않나. 생성용 AI를 시장에서 어떻게 쓸 것인지에 대해서 엄청난 논의를 하고 있지만 진짜로 국민이 다 쓰고 나면 그 다음 단계에서는, “누구나 다 쓰니까 그걸로 인해서 발생하는 문제”들이 많이 부각이 될 거다. 생생형 AI가 만드는 문제들을 해결하는 그런 기업으로 미션을 잡고 있다.
글. 바이라인네트워크
<남혜현 기자> smilla@byline.network