
– 앤드류 바르토(Andrew G. Barto)와 리처드 서튼(Richard S. Sutton)이 튜링상을 수상
– 인간의 심리를 기계에 적용한 강화학습, 인공지능 발전에 기여
– 기업의 거대한 자본이 주도하는 AI 개발 속도와 미국 연방 정부 지출 삭감 등 트럼프에 우려
미국 컴퓨터학회(ACM)는 5일(현지시각) 앤드류 바르토 매사추세츠대 명예교수와 리처드 서튼 앨버타대 교수에게 2025년 튜링상을 수여한다고 발표했다. 튜링상은 컴퓨터과학 부문의 노벨상이라 평가받는 상으로, 컴퓨터과학 분야에 큰 업적을 남긴 연구자에게 수여된다.
이들은 인간의 뇌가 고통을 최소화하고 즐거움을 극대화한다는 개념에서 출발한 ‘강화학습(Reinforcement Learning)’ 방법을 인공지능에 적용했다. 강화학습은 구글의 ‘알파고(AlphaGo)’와 오픈AI의 ‘챗지피티(ChatGPT)’와 같은 인공지능의 발전에 중요한 역할을 했다.
두 교수는 강화학습의 선구자로서 핵심 개념을 만들어냈고, 이 주제에 관한 책을 쓰기도 했다. 강화학습은 어떤 행동을 취했을 때 즐거움을 준다면 그 행동을 강화시키고, 그렇지 않다면 부정적인 피드백을 제공해 최적의 선택을 하게끔 학습시키는 것이다. 심리학에서 인간과 동물이 경험으로부터 배우는 방식을 기계에 적용시켰다.

강화학습을 활용한 대표적인 사례는 알파고다. 알파고는 대량의 바둑 기보를 먼저 학습했다. 그리고 스스로와 수백만번의 게임을 해 시행착오를 거듭하면서 강화학습했다. 즉, 게임에서 어떤 수를 두는 것이 유리(즐거움)하고, 불리(고통)한지 학습한 것이다. 당대 최고의 바둑 기사였던 이세돌을 이긴 알파고 이후 나온 알파고 제로는 온전히 강화학습으로만 기존의 알파고를 뛰어넘었다. 알파고 제로는 바둑의 규칙만을 학습한 뒤, 스스로 게임을 수만회 진행하면서 강화학습해 알파고를 뛰어 넘는 압도적인 성능을 보여주었다.
게임은 승리(즐거움)와 패배(고통)라는 명확한 결과가 있고, 이를 수치로 매기기도 쉽다. 하지만 일반적인 대화는 값을 측정하기 어렵다. 그래서 챗봇 같은 AI 개발에 강화학습이 사용되지는 않았었다. 그러나 2022년 가을 오픈AI는 RLHF(Reinforcement Learning from Human Feedback)이라는 강화학습 방법으로 챗봇을 훈련시켰다. 말 그대로 챗봇에 특정 질문에 대한 답변을 사람의 평가를 통해 강화학습을 시키는 것이다. 아주 많은 양의 긍정적인 피드백(즐거움)과 부정적인 피드백(고통)이 모여서 지금과 같이 자연스러운 반응을 하는 챗지피티가 탄생했다.
하지만, 두 교수는 현재 AI의 개발 속도에 관해서는 경고했다. 기업들이 철저한 테스트 과정을 거치지 않고 오류가 있는 제품을 출시한다고 보기 때문이다. 인류에게 이로운 관점이 아닌 기업 이윤의 관점에서 거대한 자금이 투입되어 빠르게 발전하고 있다는 시각이다. 바르토 교수는 “거대한 데이터 센터를 갖고, 소프트웨어를 사용하기 위해 돈을 청구한다는 것은 내가 이 일을 하는 이유가 아니다”라고 강하게 비판했다.
또한 바르토와 서튼 교수는 도널드 트럼프 미국 대통령이 과학 연구에 대한 연방 정부 예산을 삭감하고 과학 기관 인력을 감축하려는 시도에 비판하기도 했다. 이러한 시도는 “잘못되었으며, 미국 뿐만 아니라 전세계에 비극”이라고 바르토 교수는 목소리를 높였다.
그럼에도 불구하고 서튼 교수는 “세상에는 잘못된 일이 많지만 지나치게 뛰어난 지능은 그 중 하나가 아니다” 라고 언급하며 강화 학습을 통해 AI는 세상에 긍정적인 결과를 가져올 수 있다고 낙관했다.
글. 바이라인네트워크
<최가람 기자>ggchoi@byline.network