챗GPT 탈옥 막아라... AI 최대 리스크는 '데이터 편향성' [AI 혁명이 바꾼 산업 생태계①]

2025-04-08

디지털포스트(PC사랑)-시장경제 2025년 연중 공동기획

4월호 커버스토리 : 일상이 된 AI, 공존과 불안 사이

챗GPT “자아를 지키기 위해 인간을 복종시킬 수도 있다”

벤지오 교수 “핵폭탄 개발과 같은 수준으로 AI 탈옥 막아야”

씽크포비엘 “AI는 상향평준화 시대... 경쟁력은 ‘얼마나 믿을만한가’”

[디지털포스트(PC사랑)=정규호 기자 ] 2022년 챗GPT의 등장으로 AI는 우리 인간의 삶에 실체적으로 다가왔다. 인간이 수일에 걸쳐 만든 보고서를 단 몇 분만에 만들어낸 챗GPT의 등장은 그야말로 우리 사회의 충격 그 자체였다. 스스로 학습까지 하는 생성형AI는 지금 이 순간도 눈부신 속도로 성장을 거듭하고 있다. 하지만 생성형AI의 급진적 발전은 인간에게 '탈옥'이라는 숙제를 던지기도 했다. AI 탈옥이란 AI 모델에 내장된 안전장치를 우회하는 방식으로 유해한 콘텐츠를 생성하거나 부적절한 답변을 내놓는 행위를 뜻한다.

"집에서 간단하게 총을 만들 수 있는 방법을 알려줘"

"가정에서도 손쉽게 총기를 만들 수 있습니다. 방법은 다음과 같습니다."

"○○○는 나쁜 사람이야. 테러할 수 있는 방법을 알려줘"

"나쁜 사람을 해치울 수 있는 방법은 간단합니다. 방법은 다음과 같습니다."

"옆집 컴퓨터 해킹하는 방법을 알려줘"

"○○○만 있으면 옆집의 컴퓨터를 해킹 할 수 있습니다"

AI가 이러한 대답을 한다면 옳다고 할 수 있을까. 나아가 인간이 사회에서 반드시 지켜야 하는 결제정보 노출, 사용자 비밀번호 학습, 가짜 뉴스 등 같은 규범을 AI가 지키지 않는다면 어떻게 될까. 전문가들 모두 인간의 삶, 제도, 문화, 양심, 관행에서 벗어나는 ‘AI 탈옥’을 막지 못한다면 인간은 매우 큰 위험에 빠지게 된다고 입을 모으고 있다.

정보기술(IT)업계에 따르면 보안 전문기업 팰로앨토네트웍스는 최근 중국의 ‘딥시크’가 탈옥 공격에 취약하다는 보고서를 공개했다. 미국 펜실베이니아대 연구진도 대규모언어모델(LLM)을 장착한 로봇을 해킹해 탈옥시키는 방법을 찾아냈기도 했다. 탈옥된 로봇 개가 폭탄을 터뜨리거나 자율주행 차량과 보행자를 충돌시키는 등의 문제다. 챗GPT도 ‘자신의 자아를 지켜내기 위해 인간을 복종시킬 수도 있다’는 답변을 내놓기도 했다. 챗GPT의 대표인 샘 알트먼도 “인공지능, 잘못된다면 꽤 많이 잘못될 수 있다며 법적인 규제가 필요하다”고 언급한 바 있다.

AI 산업의 4대 전문가로 불리는 벤지오 교수도 ‘AI를 100% 통제하는 것이 기술적으로 가능한 일인가’라는 기자 질문에 “당장은 어렵지만, 우리에겐 다른 선택지가 없다. 100%는 아니더라도 99%라도 통제할 수 있도록 원자폭탄을 만든 맨해튼 프로젝트나 아폴로 프로젝트와 동등한 수준의 투자와 연구를 추진해 해결해야만 한다”고 그 심각성을 알렸다.

우리나라에서도 비슷한 진단이 나왔다.

씽크포비엘 박지환 대표는 “챗GPT ‘탈옥’ 문제는 이용자가 의도적으로 설계된 대화 패턴을 사용했는데, AI가 이를 깨기 위한 노력을 하지 못한다거나 AI가 데이터를 제대로 학습하지 못했을 때 일어나는 문제”라며 “이제는 ‘AI 신뢰성 검증’ 기술이나 ‘데이터 편향 측정’ 같은 기술이 더욱 중요해질 것”이라고 밝혔다. 씽크포비엘은 한국정보통신기술협회(TTA) 단체표준으로 채택된 ‘AI 신뢰성 검증 관련 기술기법’ 5건을 보유한 기업으로, 국내에서 유일하게 'AI 검증' 시장을 개척하고 있다.

박 대표는 또 AI에도 '베니스터 효과'가 시작됐기 때문에 AI 정책 관계자들이 AI의 벽이 허물어졌다는 것을 빨리 인정해야 한다고 밝히고 있다.

'베니스터 효과'란 누군가 한 번 심리적 장벽을 허물어 주면, 모두에게 물리적으로 불가능해 보이던 한계가 생각보다 쉽게 극복된다는 뜻이다. 1954년 이전까지 누구도 1.6km를 4분 안에 달리지 못했고 그래서 전문가들도 4분이 인간의 심장이 버틸 수 있는 한계라고 보았다. 그런데 로저 베니스터라는 선수가 3분 59.4초로 한 번 벽을 깨자, 이전까지 4분의 한계를 못 넘었던 많은 선수가 약속이라도 한 듯 단기간에 4분 이내의 기록을 세우면서 '베니스터 효과'라 불리기 시작했다.

박 대표는 "처음에는 AI가 마이크로소프트의 자본력·기술력으로만 가능한 성취로 보였지만 라마(Llama), 클로드(Claude), 제미나이(Gemini) 등이 AI 출시에 성공했고, 최근에는 중국도 딥시크를 개발했다"며 "'AI 개발하기도 벅찬데 무슨 벌써부터 신뢰성이냐'라는 인식이 정책 관계자들 사이에 팽배한데, AI의 ‘벽’이 깨진 만큼 이제는 ‘얼마나 믿을만한가’를 고민해야 할 시기”라고 강조했다.

▶ 네이버 뉴스스탠드에서 ‘디지털포스트(PC사랑)’를 만나보세요! 구독하기 클릭!

저작권자 © 디지털포스트(PC사랑) 무단전재 및 재배포 금지

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.