수능 국어 ‘1등급’ 받아든 AI “인간은 AI 더 의심하고 학습해야”

2024-11-24

지난 14일 2025학년 대학수학능력시험이 끝난 뒤 인공지능(AI) 챗GPT의 최신 버전인 ‘o1-프리뷰’가 국어영역에서 97점(원점수)을 맞은 사실이 화제가 됐다. 지금까지 국어영역에서 AI가 받은 가장 높은 점수로 알려져 있다. 이 소식을 접한 사람들 사이에선 “AI 추론 기능이 더 좋아진 것인지” “문제 패턴이 정형화된 수능의 한계가 드러난 것” 등의 이야기가 나왔다.

스타트업 ‘마커 AI’는 주요 AI 모델에 수능 국어영역 시험을 보게 한 뒤 나온 점수를 블로그에 공개하고 있다. 마커 AI 블로그에는 AI 모델별 2015~2024학년도 수능 국어영역 점수가 나와 있다. 지난 21~23일 마커 AI의 정철현 대표(한양대 산업융합학부 겸임교수), 진민성 연구원과 e메일·전화 인터뷰를 진행했다. 마커 AI는 AI 기반의 프로그램을 만들거나 서비스를 제공하는 회사다. 다음은 일문일답.

-AI로 수능을 보게 하는 작업을 해온 이유가 있을까. 국어영역만 테스트하는 이유도 궁금하다.

“대규모 언어 모델(LLM) 기반의 AI와 사람의 역량을 비교 평가하는 작업이 간단하진 않다. 문제은행식으로 출제되는 시험은 AI가 학습을 통해 일종의 커닝을 하게 된다. 반면 수능은 출제 유형과 기조는 유지되지만 매해 문제가 바뀐다. 국어영역을 우선 테스트하는 이유는 LLM 기반의 AI가 논리성을 갖춘 영역에서 활용도가 높아서다.”

-이번 국어영역에서 AI가 원점수 97점을 맞은 사실이 알려지면서 화제가 됐다. 성적이 확 좋아진 것 같다.

“올해 수능 문제를 학습하지 않은 챗GPT(o1-프리뷰)의 가장 최근 모델이 국어영역에서 한 문제를 틀렸다. 이전 챗GPT 모델에게 올해 수능 국어영역을 풀게 했을 때에는 4~8등급에 그쳤다. 지난해 수능 국어영역을 챗GPT 이외에 다른 AI 모델이 풀었을 때에도 원점수가 70점이 넘질 못했다.”

-수험생들은 국어영역 45문항을 80분 안에 풀어야 한다. AI가 문제풀이에 걸린 시간은 얼마나 되나.

“한 문제에 1분 안팎이 걸렸다. 45문항을 모두 푸는 데에는 35분 정도 소요됐다.”

-AI의 수능 국어영역 성적이 좋아진 이유가 있을까.

“물론 추정이긴 하지만 이번에 국어영역 97점을 맞은 모델은 그냥 바로 답을 내놓지 않고, 여러 개의 답안을 고민해보고 그 중에서 하나를 선택하도록 설계돼 있다. 여러개의 생각하는 과정을 거쳤다고 생각하면 된다. 단계적으로 답을 찾는 이 과정을 생각의 사슬(CoT)라고 부르는데, 생각의 사슬로 추론능력이 더 좋아졌다고 흔히 이야기한다.”

-올해 수능 국어영역 8번 문제를 틀렸다. 수험생들의 정답률도 20% 안팎에 그칠 것으로 예상되는 문제다. AI가 8번 문제를 틀린 이유는 무엇일까.

“왜 틀렸는지 정확히 파악하는 것은 쉽지 않다. 눈 가리고 코끼리를 만지면서 이 동물이 무엇인지 추정하는 것에 가깝다. 다만 독서 문제인 수능 8번은 지문이 2개이고 보기까지 제시돼 있다. 일단 정보량이 많았다. 글의 표면에 드러나는 내용보다 지문과 보기의 맥락을 파악해 ①~⑤번에 나온 설명과 하나하나 일치시켜야 하는 다소 복잡한 문제였다. AI가 논리적 추론을 하는 과정에서 어려움을 겪은 것 아닐까 추정한다. 아마 두 지문을 부분부분별로 비교 하는 작업을 AI가 안 해봤던 것 같다.”

-수능 국어영역 고득점이 지난해보다 올해 쉬워진 수능 난이도에서 비롯된 것은 아닐까.

“그렇게 단정짓기는 어려울 것 같다. 사람이 어려워하는 문제를 AI가 쉽게 느끼기도 하고, 그 반대의 경우도 있다. AI는 학습된 데이터에 기반해 움직인다. 예를 들어 빈칸 추론을 묻는 문제를 많이 학습했다고 하면 수험생들은 어려워해도 AI는 상대적으로 수월하게 풀어낼 수 있다. 그리고 AI는 대체로 글의 시작과 끝에서 주제를 파악하려고 하는데, 중간에 주제가 있으면 놓치는 경향이 보인다. 저희가 10년간 테스트를 한 결과를 보면 ‘물수능’이나 ‘불수능’ 경향과 AI가 받아든 점수는 일치하지 않을 때가 적지 않다.”

-AI의 추론 역량이 좋아졌다기보단 학습량이 늘어나면서 축적된 지식을 바탕으로 국어영역에서 좋은 점수를 낸 것 아니냐는 분석도 있다.

“AI의 많아진 학습량, 향상된 추론능력 모두 좋은 성적에 작용했다고 본다. 다만 많아진 학습량만으로는 아직까지 국어영역 성적이 좋아지진 않았다. 학습량이 많은 메타의 모델은 여전히 국어영역 3~4등급 수준에 그친다. 추론 능력은 앞서 언급했듯이 그냥 답을 내놓는 게 아니라 답변의 근거를 ‘A→B→C’ 순으로 찾아가게 되면서 더 향상된 것으로 보인다. 조금 더 생각을 곱씹으면서 한다고 보면 된다.”

-수능 문제가 패턴화됐다는 지적이 많다. 반복해 패턴을 익히면 상대적으로 쉽게 풀 수 있다는 것이다. AI가 수능 국어영역 문제 패턴을 ‘해킹’하면서 더 잘 풀게 된 것은 아닐까.

“단순히 수능 문제의 패턴 학습만으로 고득점을 했다고 보기는 어려울 것 같다. 물론 예전 수능 문제를 학습한 것이 고득점에 영향을 미칠 순 있겠지만, 수능은 문제은행 형태가 아니다. 아예 새로운 문제가 매해 출제되기 때문에 패턴의 학습만으로 좋은 성적을 받았다고 보기는 어렵다.”

AI가 풀어낸 국어영역 점수를 둘러싼 해석은 여전히 분분하다. 교육계에선 AI의 국어영역 고득점을 놓고 관점이 다른 의견을 내놓기도 한다. 크게 두 가지 주장이 있다. ① AI의 문제 풀이 속도가 인간보다 빨라 단순 비교는 어렵고 ② 지문이 짧아지고 문장을 꼬아내는 등 지엽적인 문제가 많아지면서 AI가 더 수월하게 풀 수 있는 문제가 많아졌다는 것이다.

“AI에 게임을 시키면 ‘빠르게’ 전략을 구사한다. 인간이 클릭을 할 때 손동작의 속도에는 한계가 있지만 AI는 그렇지 않다. 수능을 풀 때에도 판단의 속도에 인간과 차이가 나는데 인간과 AI를 동일선상에서 비교하는 것은 큰 의미가 없다고 본다. 게다가 요즘 수능 국어영역은 너무 어렵다는 비판을 피하기 위해 약관의 깨달 같은 글씨를 숨겨놓듯 지엽적인 수준의 문제가 많다. 지문도 짧아졌다. 고차원적 사고를 파악한다고 보긴 어렵다. AI가 기계적이고 순간적인 판단은 더 잘할 수 있다.”(<수능 해킹> 저자 문호진씨)

-AI를 교육에 활용하려는 시도가 늘어나고 있다. AI를 기술적으로 다루는 입장에선 어떤 장단점이 있을까.

“개도국이나 교육 소외 지역에서 AI 기반 디지털 기기를 사용하면 상대적으로 양질의 교육을 받을 수 있을 거라고 생각한다. 다만 교육에서 AI를 많이 활용할수록 우리는 더 긴장하고 공부를 해야 한다. 확신을 가지면 안 된다. AI는 인간이 던지는 질문에 기계적으로 답을 내놓는데 일종의 ‘환각’이라 불리는 현상이 언제든 나타날 수 있다. AI는 질문과 전혀 관련 없는 답변이나 세상에 존재하지 않는 사실을 그럴싸하게 포장해 내놓기도 한다. 무분별하게 AI가 제시하는 답변을 수용하지 않는 연습을 해야 한다.”

-디지털 리터러시가 점점 더 중요해진다는 이야기로 들린다.

“맞다. 요즘 학생들은 AI에 물어보고 나온 답변을 자신이 내세우는 주장의 근거로 삼는 일이 많이 보인다. 집에 아이들이 굳이 왜 ‘구글에 검색해서 찾아야 하냐’고 묻기도 한다. AI가 바로 답변해주는데 구글에서 검색한 뒤, 여러 결과를 꼭 비교해봐야 하냐는 것이다. 위험한 현상이라고 생각한다. 모든 사실을 의심하고 비판적으로 생각하는 연습이 필요한데 이같은 역량이 떨어져 있다. 교육에서 AI 쓰임이 많아질수록 비판적 독해를 할 수 있는 역량을 키워야 한다.”

-이미 사교육에는 AI를 활용한 학습 프로그램이 많이 보급돼 있다. 수학처럼 문제풀이 중심의 과목에서 더 많이 이용된다고 한다.

“아마 수학이라고 하면 풀이를 설명해주고 반복해서 약점을 조언해준다고 들었다. 학생 입장에선 좋을 수 있다. 바로 바로 답변을 해주니까. 그런데 달리 생각해볼 여지도 있다. 언제든 쉽게 AI에게 물어보고 답변을 들을 수 있다고 하면 내 머릿속에 기억해둘 필요도, 스스로 생각을 많이 할 필요도 없어질 우려가 있다. AI를 교육에 붙인다고 해서 항상 좋은 것만은 아닌 것 같다.”

-내년부턴 교육현장에 AI 디지털교과서도 도입된다. AI 기반 프로그램이 설치된 디지털 디바이스를 학생들이 교과서로 사용하게 된다.

“긍정적, 부정적 측면이 두루 있다고 본다. 현장의 교사가 채워주지 못하는 점을 AI 교과서가 채워줄 수 있지 않을까. 디지털 디바이스에 내재된 AI가 방대한 지식을 학생들에게 전달해줄 수 있는 점이 긍정적일 거라고 본다. 반대로 AI에는 편향성 문제가 있다. 사람은 개성이 있고 다양한데 AI는 통계적으로 확률이 높은 쪽으로 치중된다. 학생들이 AI 이야기를 계속 듣다보면 특정 분야에 경도될 수 있다. 여기서 편향이라는 것은 AI가 학습하고 AI에 축적된 ‘데이터 편향’이다. 어떤 이들의 입장에선 AI가 굉장히 공격적인 답변을 내놓을 수 있다. 현재 기술적으로는 AI가 윤리적이지 않은 답변을 하게 될 때 스스로 멈추게하는 등의 장치를 마련하고 있다.”

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.