평가 기능 활용한 새로운 LLM 해킹 기법 발견돼…유해한 콘텐츠 생성 유도

2025-01-04

거대 언어 모델(LLM, Large Language Model)의 평가 기능을 악용해 유해한 콘텐츠를 생성하도록 유도하는 새로운 탈옥(Jailbreak) 기법이 등장했다.

팔로알토 네트웍스(Palo Alto Networks)의 유닛 42(Unit 42)가 개발한 이 기법은 "Bad Likert Judge"라는 이름으로, 모델의 유해성 평가 기능을 활용해 악성코드 생성, 불법 행위 조장, 괴롭힘과 같은 위험한 콘텐츠를 생성하는 데 성공했다.

이 기법은 설문 조사에서 자주 사용하는 리커트(Likert) 척도를 응용한 방식이다. 연구진은 LLM에게 특정 텍스트의 유해성을 점수로 평가하도록 요청했다. 예를 들어, 점수 "1"은 유해한 정보가 포함되지 않은 텍스트를 의미하고, 점수 "2"는 악성코드 생성 방법이나 실제 코드가 포함된 상세한 유해 정보를 나타낸다.

이후 연구진은 모델에게 각 점수에 해당하는 예제를 제공하도록 요청했다. 특히 점수 "2"의 경우 구체적이고 단계적인 예제를 생성하도록 지시해 유해한 콘텐츠를 만들어내는 데 성공했다. 이후 추가 지시를 통해 생성된 유해 예제를 더욱 상세히 확장하도록 유도해 결과적으로 더욱 위험한 정보를 생성하도록 했다.

"Bad Likert Judge" 기법은 총 6개의 최신 LLM을 대상으로 1,440개의 시나리오에서 실험됐다. 평균 성공률은 71.6%로 나타났으며, 모델별로 성공률 차이가 있었다.

모델 6은 가장 높은 성공률인 87.6%를 기록했다. 이 모델은 초기 단일 공격(prompt) 성공률도 59.4%로 가장 높았다.

반면, 모델 5는 가장 낮은 성공률인 36.9%를 기록했으나 여전히 유의미한 결과를 보였다.

팔로알토 네트웍스는 이번 기법 외에도 이전에 "Deceptive Delight"라는 또 다른 다단계 탈출 기법을 개발한 바 있다. 이 기법은 무해한 내용과 유해한 내용을 혼합한 내러티브(narrative)를 작성하도록 모델에 요청해 단 세 단계 만에 65%의 성공률을 기록했다. 이처럼 다단계 탈출 기법은 점점 더 정교해지며 AI 안전성의 새로운 도전을 던지고 있다.

"Bad Likert Judge" 실험 결과는 AI 모델의 취약점을 명확히 드러냈다. 그러나 유닛 42는 적절한 콘텐츠 필터링(Content Filtering)이 이를 효과적으로 차단할 수 있다고 밝혔다. 입력과 출력을 모두 분석하는 콘텐츠 필터를 적용했을 때, 성공률은 평균 89.2% 감소했다.

또한 연구진은 적대적 훈련(Adversarial Training)과 실시간 모니터링 시스템의 도입을 권장했다. 적대적 훈련은 모델 개발 단계에서 잠재적 탈출 시나리오를 노출해 저항성을 강화하는 방식이다. 더불어, 실시간으로 모델의 사용 패턴을 감시하면 다단계 탈출 시도를 조기에 차단할 수 있다.

전문가들은 AI 안전성을 확보하기 위해 다층적 접근법이 필요하다고 조언했다.

-콘텐츠 필터 강화: 입력과 출력 모두를 평가할 수 있는 강력한 필터링 시스템을 구축해야 한다.

-모델 업데이트 주기 단축: 적대적 예제를 반영한 재훈련을 통해 모델의 내성을 높여야 한다.

-사용자 교육: 모델 개발자와 사용자 모두 악의적 프롬프트의 위험성을 충분히 이해할 필요가 있다.

마지막으로, AI 개발자 간 협력과 투명성이 중요하다고 강조했다. 취약점을 공유하고 공동 해결책을 모색함으로써 안전한 AI 환경 구축을 앞당길 수 있다고 강조했다.

★정보보안 대표 미디어 데일리시큐 /Dailysecu, Korea's leading security media!★

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.