오픈AI 대항마로 꼽히는 인공지능(AI) 스타트업 앤스로픽이 사용자가 AI 모델에서 유해 콘텐츠를 유도하는 것을 방지하기 위한 새로운 기술을 선보였다고 파이낸셜타임스(FT)가 보도했다.
4일(현지시간) FT에 따르면 앤스로픽은 지난 3일 발표한 논문에서 자사의 클로드 챗봇을 구동하는 것과 같은 대형언어모델(LLM) 위에 보호막 역할을 하는 새로운 시스템을 소개했다.
유해한 콘텐츠의 입력과 출력을 모두 모니터링할 수 있다는 게 앤스로픽 측의 설명이다.
앤스로픽은 이 시스템의 효과를 검증하기 위해 보안 조치를 우회하려는 개인에게 최대 1만5천 달러(약 2천190만원)의 포상금을 내걸기도 했다. 일부 참가자들은 보안 조치를 뚫기 위해 3천시간 이상을 쏟아부은 것으로 전해졌다.
앤스로픽은 현재 클로드 챗봇 모델에 이 시스템을 즉시 적용하지는 않을 것이지만 향후 더 위험성이 있는 모델이 출시되면 적용을 고려할 방침이라고 했다.
앤스로픽의 이번 보안 시스템 개발은 AI 모델을 조작해 불법적이거나 위험한 정보를 생성하려는 이른바 '탈옥'(jailbreaking)에 대한 업계의 우려가 커지는 상황에서 이뤄져 주목받고 있다.
앤스로픽 외에 마이크로소프트(MS)와 페이스북 모기업 메타 등 빅테크들도 AI 기술의 위험으로부터 보호할 수 있는 방법을 찾기 위해 경쟁하고 있다고 FT는 전했다.
<연합>
국제팀 press@jeonpa.co.kr
<저작권자 © 전파신문, 무단 전재 및 재배포 금지>