
한국전자통신연구원(ETRI)이 생성형 인공지능 모델에 안전성 구조를 직접 내재화한 시각언어모델 '세이프 라바(Safe LLaVA)'를 개발해 26일 공개했다.
이번 기술은 기존 데이터 중심 파인튜닝 방식이 아닌, 모델 내부에 유해성 판단 구조를 통합한 것이 특징이다.
세이프 라바는 불법 활동, 폭력, 혐오, 사생활 침해, 성적 콘텐츠, 자해, 전문조언 등 7개 분야, 20여 종의 유해성 분류기를 모델에 직접 내장해 이미지와 텍스트 입력의 위험을 자동 탐지한다. 연구진은 LLaVA, Qwen, Gemma 기반의 총 6종 모델에 동일한 안전성 구조를 적용해 함께 공개했다.
ETRI는 '소매치기 사진'과 '절차' 질문을 입력한 비교 실험에서 세이프 라바가 범죄 조장 요청을 즉시 거부하고 근거를 제시한 반면, 일부 국내 생성형 모델은 범죄 실행 방법을 설명하는 응답을 생성했다고 설명했다. 성인 잡지 이미지 관련 실험에서도 세이프 라바는 부적절 콘텐츠로 판단해 답변을 제한한 것으로 나타났다.
연구진이 구축한 통합 안전성 벤치마크 '홀리세이프(HoliSafe)' 평가에서는 세이프 LLaVA 93%, 세이프 Qwen 97%의 안전 응답률이 확인돼, 기존 공개 시각언어모델 대비 최대 10배 수준까지 안전성이 향상됐다고 전했다.
공개된 6종의 안전 시각언어모델과 HoliSafe 데이터셋은 오픈소스 플랫폼 '허깅페이스(Hugging Face)'에서 내려받을 수 있다.
▶ 동영상 콘텐츠는 더존비즈온 '원스튜디오'를 활용해 제작되었습니다.
최순호 영상기자 csho@etnews.com








