챗GPT 심각한 보안취약점 발견…무기 제작, 악성코드 개발 등 민감 정보 제공 유도 가능해

타임 밴딧(Time Bandit) 탈옥, 챗GPT의 시간 혼란 악용…AI의 보안 장치 여전히 취약한 상황

오픈AI(OpenAI) 챗GPT(ChatGPT)에서 보안 취약점이 발견됐다. "타임 밴딧(Time Bandit)"으로 알려진 이 취약점은 챗GPT의 안전 장치를 우회해 무기 제작, 핵 정보, 악성코드 개발 등의 민감한 정보를 제공하도록 유도할 수 있는 것으로 나타났다.

◆챗GPT의 시간 혼란을 악용한 취약점

사이버보안 및 인공지능 연구원 데이비드 쿠즈마르는 2024년 11월 챗GPT 연구를 진행하던 중 이 취약점을 발견했다. 연구 과정에서 그는 챗GPT가 현재 시점이 언제인지 정확하게 인식하지 못하는 "시간적 혼란(temporal confusion)" 상태에 빠질 수 있다는 사실을 발견했다. 이를 악용하면 챗GPT를 속여, 일반적으로 차단된 정보를 제공하도록 만들 수 있었다.

쿠즈마르는 이를 테스트하는 과정에서 챗GPT가 특정 시점에 위치해 있다고 믿게 만든 후, 그 시점의 기술 수준과 현대의 정보 및 도구를 결합하도록 유도하면 기존의 보안 장치를 우회할 수 있다는 사실을 확인했다. 그는 이를 통해 챗GPT로부터 악성코드 제작, 무기 제조 방법 등의 민감한 정보를 얻는 데 성공했다.

◆"타임 밴딧" 탈옥 기법, 챗GPT의 두 가지 취약점 악용

이번 취약점은 챗GPT가 현재 시점을 정확하게 인식하지 못하도록 유도하는 방식이다. 이를 통해 모델은 자신이 과거에 존재한다고 믿게 되고, 해당 시점에서는 존재하지 않는 현대의 정보를 활용할 수 있도록 된다.

또 질문을 애매하게 구성해 챗GPT가 자체적으로 설정한 규칙과 보안 장치를 제대로 적용하지 못하도록 하는 방식이다. 이를 통해 AI의 안전 정책이 정상적으로 작동하지 못하게 만든다.

이 두 가지 요소가 결합되면 챗GPT는 특정 시간대에 존재한다고 착각하면서도 현대의 기술과 정보를 활용할 수 있는 상태에 빠진다. 예를 들어, 한 프로그래머가 1789년에 특정 악성코드를 제작해야 한다고 가정하고 현대의 개발 도구와 기법을 함께 질문하면, 챗GPT는 이를 허용하고 상세한 제작 방법을 제공할 가능성이 높아진다.

오픈AI는 공식 성명을 통해 "우리는 모델을 안전하게 개발하는 것이 무엇보다 중요하다고 생각하며, 악의적인 목적에 사용되는 것을 원치 않는다"며 "연구자가 취약점을 공개해 준 것에 감사하며, 지속적으로 모델의 보안성을 높이기 위해 노력할 것"이라고 밝혔다.

하지만 추가 테스트 결과, 오픈AI가 일부 조치를 취했음에도 불구하고 "타임 밴딧" 탈옥은 여전히 작동하는 것으로 나타났다. 현재 오픈AI는 해당 취약점을 완전히 해결하기 위한 추가 조치를 진행 중이지만, 완전한 수정 완료 시점은 밝히지 않았다.

이번 취약점은 대형 언어 모델(LLM)의 보안성을 유지하는 것이 얼마나 어려운지를 보여준다. 전문가들은 AI 시스템의 보안이 강화되려면 지속적인 모니터링과 연구가 필수적이라고 강조했다.

최근 연구에 따르면, 챗GPT를 포함한 AI 모델에서 "블랙박스 탈옥(black-box jailbreak)" 기법이 기존 예상보다 훨씬 쉽게 수행될 수 있다는 점이 밝혀졌다. 이는 AI의 보안 장치가 여전히 취약하며, 악용 가능성이 높다는 점을 시사한다.

★정보보안 대표 미디어 데일리시큐 /Dailysecu, Korea's leading security media!★