AI는 이제 인간이 학습할 수 있는 데이터는 모두 학습했고, 스스로 세상과 상호작용하며 경험을 쌓아 발전하게 될 것이라는 예측이 나왔다. 사람이 학습을 통해 발전해 온 것처럼, AI도 주어진 데이터가 아닌 자신의 환경에서 수집한 데이터를 바탕으로 자율적으로 학습하고 성장하게 된다는 것이다.
구글 딥마인드의 수석 연구 과학자로 알파고를 개발했던 데이비드 실버와 강화학습으로 올해 튜링상을 받은 리처드 서튼 교수가 쓴 논문 ‘경험의 시대에 온 것을 환영합니다(Welcome to the Era of Experience)’의 내용이다.
이들이 정의하는 ‘경험의 시대’는 AI가 인간 중심의 데이터에서 벗어나 스스로의 경험, 즉 환경과 상호작용하면서 AI가 수집한 데이터를 바탕으로 강화학습해 발전하는 시대다. 이들은 AI가 이제 새로운 국면에 접어들어, 기존 인간이 학습한 지식의 한계를 넘어서기 위한 전환점에 놓여있다고 판단했다.
논문에서 AI 발전은 세 가지 시대로 구분했다. 시뮬레이션 시대, 인간 데이터 시대, 그리고 마지막으로 경험의 시대다.

시뮬레이션 시대는 알파고와 알파고 제로가 대표적이다. 챗지피티에 이어 지금까지도 핵심은 강화학습(Reinforcement Learning)이다. 강화학습은 행동에 따른 보상(긍정 및 부정 피드백)을 주면서 시행착오를 거듭해 AI를 학습시키는 방법이다. 이 방법을 통해 알파고는 대량의 바둑 기보를 학습하고 스스로 수백만번 게임을 진행해 학습했다. 이후 나온 알파고 제로는 기보를 학습하지 않고 규칙만을 학습하고 수만번 시뮬레이션 해 알파고를 뛰어넘는 성능을 보여줬다.
하지만, 자연어와 같이 인간이 생성한 데이터를 바탕으로 학습하는 챗GPT와 같은 챗봇이 등장하면서 강화학습의 방향은 인간 중심으로 바뀌게 되었다고 이들은 설명했다.
인간 데이터의 시대에서 인간 중심의 거대언어모델(LLM)은 AI가 스스로 학습하는 방법에서 벗어나 인간 지식을 활용하는 방향으로 초점을 바꾸었다. 기계가 추정한 값 대신 인간 전문가의 데이터를 활용하고, 언어 모델을 인간 피드백에 맞추면서 AI는 급속도로 발전했지만 새로운 한계가 생겼다.
이제는 경험의 시대가 도래해 AI가 AI 에이전트로 발돋움하면서 스스로 지식을 발견하는 능력을 쌓아나갈 것이라 이들은 주장했다.
AI 에이전트는 인간의 개입을 최소화해 스스로 목표를 설정하고 작업을 수행하는 것을 목표로, 인간 비서와 유사한 개념이다. 아직 발전하는 단계로 기업마다 정의하는 에이전트의 개념이 다르다. 일반적으로 사람들이 생각하는 AI 에이전트는 영화 아이언맨의 ‘자비스’처럼 스스로 생각하고 추론, 제안을 할 수 있는 AI일 것이다.
이른바 ‘경험적 에이전트’는 인간 대화에서만 상호작용하지 않고 주변 환경을 관찰한다. 경험적 에이전트는 인간의 보상이 아닌, 환경에서 터득한 경험을 바탕으로 추론하고 계획할 수 있다. 경험적 에이전트는 다음과 같은 특징을 가질 수 있다고 두 사람은 설명했다.
스트림
예를 들어, 사용자의 웨어러블 기기를 통해 수개월에 걸쳐 수면 패턴, 활동 수준, 식습관 등을 관찰한 값을 바탕으로 장기적인 추세와 사용자의 건강 목표에 따라 개인화된 조언을 제공할 수 있다. 혹은 과학 분야에서는 새로운 물질을 발견하거나 이산화탄소를 줄이는 것 같은 목표를 가질 수 있다. 이러한 에이전트는 장기간에 걸쳐 관찰 결과를 분석하고 시뮬레이션을 실행해 실제 실험과 방법을 제안할 수 있다는 의미다.
행동과 관찰
또한, 경험적 에이전트는 ‘디지털 친화적’이기 때문에 디지털 인터페이스를 통한 소통이 원활하다. 챗GPT가 다양한 API를 활용하는 것처럼 디지털 세계에서 실제 코드를 실행하고 관찰할 수 있다. 이를 통해 현실 세계와도 연결할 수 있는데, 환경 센서를 모니터링하고 망원경을 원격으로 조종하며 실험실에 있는 로봇 팔을 제어하는 것 등이 있다.
보상
인간 중심 LLM은 인간의 선호도를 기반으로 보상으로 학습했는데, 이는 인간의 판단을 기반으로 하기 때문에 한계에 부딪힐 수밖에 없다. 더 나은 전략, 새로운 아이디어를 발견하려면 환경에서 발생한 자체 데이터를 기반으로 보상해야 한다.
에이전트가 학습할 수 있는 데이터는 인간 데이터뿐만 아니라 세상에 있는 데이터인 매출, 수익, 주식, 경제 지표, 에너지 소비 등 수많은 지표들이 넘쳐나며, 인간의 피드백을 포함해 방대한 자율 학습이 가능하다.
계획 및 추론
최근 추론이 가능한 LLM이 등장하기 시작했다. 이 모델들은 사고의 사슬(CoT) 프롬프팅을 포함해 인간의 사고 과정을 모방하도록 설계됐다. CoT 프롬프팅은 복잡한 문제를 단계별로 나눠 결론을 도출하는 방식으로 강화학습과 함께 AI 학습에 중요한 역할을 하고 있다. 하지만 이러한 방식으로 훈련된 에이전트는 틀린 가정이나 내재적 편견 같은 데이터를 그대로 학습해 잘못된 결론을 도출할 수 있다.
이를 극복하기 위해서 경험적 에이전트는 세상에서 관찰한 데이터를 활용해 계속 개선해야 한다. 에이전트는 미래를 예측하면서 오류를 수정하기 위해 지속적인 피드백 루프를 거친다. 이러한 업데이트를 통해 현재 지배적인 인간 사고방식에 얽매이지 않고 새로운 원리를 발견할 수 있도록 한다.
마지막으로 경험의 시대를 맞이한 우리는 이전과 다른 위험과 과제에 놓이게 되었다고 저자들은 언급했다.
긍정적으로 보면 완전히 다른 미래를 맞이해 과학적 발견이 가속화된다거나 뛰어난 역량으로 인간을 도울 수 있을 것이다. 하지만, 여전히 AI가 일자리를 위협한다는 문제가 제기되고, 우리가 예측하지 못하는 위험이 존재할 수 있다. 혹은 이 시스템을 악용해 국가 안보에 위협이 될 수 있고, 급격한 사회 변화를 일으킬 수도 있다.
미래에는 과연 아인슈타인이나 에디슨처럼 뛰어난 천재 AI가 등장할 수 있을까, 아니면 그저 완벽한 기계에 불과할까?
이것에 대한 답을 알 수 없지만, 저자들은 ‘경험의 시대’는 AI 발전에 있어 중요한 순간을 의미한다고 덧붙였다. 그들은 경험적 에이전트가 인간이 생성한 데이터의 규모와 질을 능가하고, 많은 분야에서 인간이 가진 능력을 넘어서는 역량을 발휘할 것이라 믿고 있다.
글. 바이라인네트워크
<최가람 기자> ggchoi@byline.network