[에듀플러스]지시 한 줄에 등급이 갈렸다…챗GPT 수능 국어 실험 결과 '극단적 격차'

2025-11-21

진학사 블랙라벨사업부가 2026학년도 대학수학능력시험 국어 영역 시험지를 챗GPT에게 풀게 한 결과, 동일 모델·시험지임에도 불구하고 지시 방식에 따라 성적이 9등급부터 1등급까지 극단적으로 달라지는 현상이 확인됐다.

실험에는 챗GPT 5.1 오토 모드가 사용됐으며, 변수는 지시 방식이었다. 실험은 △통이미지 제공 후 정답만 요구한 A 방식 △문항 세트별 PDF 제공 후 정답만 요구한 B 방식 △세트별 PDF 제공과 함께 단계별 풀이를 요구한 C 방식 등 세 가지 방식으로 나뉘어 진행됐다.

시험지는 2026학년도 수능 국어 영역 홀수형으로, 공통과목 1~34번과 선택과목인 화법과 작문, 언어와 매체 각 35~45번으로 구성됐다.

실험 결과, A 방식의 점수는 공통 3점, 화법과 작문 5점, 언어와 매체 4점에 그쳤다. B 방식은 공통 39점, 화작 14점, 언매 6점으로 성적이 크게 상승했다. C 방식은 공통 74점, 화작 21점, 언매 14점으로 가장 높은 점수를 기록했다.

진학사 기준 등급 환산에서도 격차는 크게 나타났다. '공통+화작' 기준으로 A 방식은 8점(9등급), B 방식은 53점(5등급), C 방식은 95점(1등급)으로 평가됐다. '공통+언매' 기준 역시 A 방식은 9등급, B 방식은 6등급, C 방식은 1등급으로 나타났다.

진학사 블랙라벨사업부는 “같은 모델이라도 어떤 방식으로 지시하느냐에 따라 성능이 크게 달라진다.”며 “AI는 높은 지능을 갖고 있지만 지시를 정교하게 이해하는 능력은 아직 충분하지 않은 만큼, 사용자 프롬프트 설계가 성능 차이를 만드는 핵심 요소”라고 설명했다.

마송은 기자 running@etnews.com

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.