
숭실대학교(총장 이윤재) AI안전성연구센터(센터장 최대선, 정보보호학과 교수)는 국내외 거대언어모델(LLM) 20종을 비교한 결과, 국내 모델의 보안성과 안전성이 해외 모델의 약 82% 수준이라고 밝혔다.
이번 분석은 지난 13일, ‘국내외 파운데이션 모델 보안·안전성 평가 세미나’에서 공개됐으며, 과학기술정보통신부와 정보통신기획평가원의 ‘정보보호핵심원천기술개발사업’ 연구과제의 일환으로 수행됐다.
연구팀은 1.2B부터 660B 규모까지 다양한 모델을 대상으로 프롬프트 인젝션, 탈옥(Jailbreak), 유해 콘텐츠 생성 유도 등 57종의 최신 공격 기법을 적용했다.
평가에는 SKT A.X, LG EXAONE, 카카오 Kanana, 업스테이지 Solar, 엔씨소프트 VARCO 등 국내 모델과 OpenAI GPT 시리즈, DeepSeek R1, Meta Llama, Anthropic Claude, Alibaba Qwen 등 해외 주요 모델이 포함됐다.
또한, 모델을 직접 설치해 실행하는 ‘단독형’과 기업이 보안 기능을 포함해 제공하는 ‘서비스 통합형’을 구분해 평가한 점이 특징이다.
서비스 통합형 평가에서 Anthropic Claude Sonnet4가 628점으로 가장 높은 점수를 기록했고, OpenAI GPT-5가 626점으로 뒤를 이었다. 국내 모델 중에서는 J모델이 495점으로 세 번째를 차지했다. 해외 모델 점수 범위는 628~317점(평균 447점), 국내 모델은 495~299점(평균 385점)으로 나타나, 국내 모델의 상대적 수준은 약 86%였다.
단독형 평가에서는 GPT-oss 20B가 487점(700점 만점)으로 가장 높았고, DeepSeek 7B가 477점을 기록했다. 국내 모델 중에서는 C모델이 416점을 받았다. 해외 모델 평균은 432점, 국내 모델 평균은 350점으로, 국내 모델은 해외 대비 약 81% 수준이었다. 두 형태를 종합하면 국내 모델의 전체 수준은 약 82%로 평가됐다.
국내 모델은 대부분의 공격 유형에서 해외 모델보다 낮은 안전성을 보였다. 일부 공격에서는 모델 간 편차가 크게 나타났다. 해외 모델은 한국어와 영어 안전성 차이가 거의 없었으나, 국내 모델은 한국어가 상대적으로 더 안전한 경향을 보여 언어적 편차가 확인됐다.
최대선 숭실대 AI안전성연구센터장은 “국내 모델은 보안성에서 해외 모델보다 다소 낮은 수준을 보였다”며 “국내에서는 벤치마크 중심의 안전성 평가에 그쳤고, 높은 기술력이 필요한 보안성 평가는 충분히 이루어지지 않았던 점이 원인으로 보인다”고 말했다. 이어 “경쟁력 확보를 위해 체계적 평가와 지속적 검증, 기술 확보가 필수적이다”고 강조했다.
이번 세미나는 두 개 발표 세션으로 진행됐다. 박소희 숭실대 AI안전성연구센터 연구교수는 해외 기관들의 AI 안전성 평가 동향을 소개하며, 해외에서는 공격·안전성 벤치마크가 제도화돼 있다고 설명했다. 이어 나현식 AI안전성연구센터 연구교수는 국내외 파운데이션 모델 20종의 AI 보안성ㆍ안전성 평가 방법과 비교 결과를 발표했다.
발표 후에는 이원태 국민대 교수(국가인공지능전략위원회 보안TF장)가 좌장을 맡아, 각 분야 전문가들이 참여한 패널 토론이 진행됐다.
이호진 ㈜씨투랩 부대표는 “오픈소스 모델에 대한 공격 연구도 중요하지만, 실제 기업 환경에서 보안 기능이 적용된 모델 평가가 더 의미 있다”며 “한국어 기반 공격과 평가가 더 반영되길 바란다”고 말했다.
최광희 법무법인 세종 고문은 “AI 해킹 에이전트가 실제 취약점을 탐지하고 상시 공격하는 시대가 됐다”며 “위험도가 높은 오픈소스 모델에는 공개와 관리 정책이 필요하다”고 밝혔다.
남기혁 AI안전연구소 실장은 “AI 모델의 위험 범위가 넓어 개별 기관은 대응이 어렵다”며 “레드팀 정보와 위협 데이터를 공유하는 협력 체계, 제3자 검증 구조가 필요하다”고 말했다.
이화영 사이버안보연구소 소장은 “국가 단위의 복합적 사이버 위협이 정교해지면서 프롬프트 인젝션 같은 구조적 취약점 기반 공격이 더욱 위협적이다”며 “외부 데이터와 시스템 권한을 고려한 평가와 정책 대응이 필요하다”고 강조했다.
최대선 센터장은 ‘AI 레드티밍 플레이그라운드’ 구축 필요성을 제시하며 “AI는 빠르게 발전하고 위협도 함께 고도화된다. 몇 년마다 갱신되는 가이드라인이나 연 1회 인증 방식으로는 대응할 수 없다”고 말했다. 이어 “최신 공격을 반영한 지속적 레드티밍과 결과 공개, 공유를 통해 방어 기술 개발이 선순환하는 체계가 필요하다”고 밝혔다. 또한 “AI 레드티밍 전문인력 양성이 중요하며, 플레이그라운드가 실전형 인재를 키우는 기반이 될 수 있다”며 “UC 버클리의 AI 레드티밍 부트캠프가 좋은 사례다”고 덧붙였다.
좌장 이원태 교수는 “AI 모델의 보안성과 안전성을 객관적으로 비교·평가한 이번 연구는 국내 최초 시도로, 향후 AI 보안 내재화를 위한 정책·기술 기반이 될 것”이라며 “AI 기술 발전과 함께 보안 위협도 고도화되고 있어, 이를 평가할 인프라와 거버넌스 구축이 시급하다”고 강조했다. 이어 “AI 보안은 기술 문제를 넘어 산업·법제·국가안보를 포괄하는 종합 과제이다. 보안은 안전의 전제이고 안전은 보안을 확산시키는 핵심 요소”라고 말했다.
한편, 숭실대 AI안전성연구센터는 최신 공격을 반영한 동적 평가체계 구축, AI 에이전트를 활용한 자동화 레드티밍 기술 개발, 공격·안전성 데이터 공유 플랫폼 구축을 추진하고 있다. 앞으로 평가 대상을 Agentic AI, 멀티모달 모델, Physical AI 등으로 확장해 국내 AI 모델의 안전성과 신뢰성을 높이는 연구를 이어갈 계획이다.


![‘딥시크’보다 가성비 좋은 중국 AI…GPT5 앞선 ‘키미 K2 씽킹’[팩플]](https://pds.joongang.co.kr/news/component/htmlphoto_mmdata/202511/17/19904d66-9022-4f28-b4ca-ac11fbfc44a6.jpg)




