2022년 챗GPT란 물건이 나오면서 IT 세상이 발칵 뒤집어지더니 요즘은 AI 에이전트란 단어가 큰 파도를 이루고 있다.
‘에이전트(Agent)’는 한국어로 ‘대리인’, ‘첩보원’ 쯤으로 번역된다. 인공지능(AI)을 붙인 ‘AI 에이전트’는 AI 대리인 정도로 번역되겠다.
AI 에이전트를 두고 혹자는 ‘에이전트 경제’를 말하기도 하고, 누구는 인공일반지능(AGI)의 도래를 말하기도 한다. 사람의 일자리를 대체하고, 전통적인 소프트웨어와 서비스가 AI 에이전트로 교체될 것이라고 한다.
지난 10여년 간 IT 세상을 뒤집어놨던 단어, 트렌드를 돌이켜보면 클라우드, 빅데이터, 메타버스 같은 단어들은 일종의 마케팅 용어로 치부할 수도 있다. 지금의 AI 에이전트란 말도 마케팅 용어고, 일부의 호들갑 정도로 생각해야 할까?
최근까지 IT 트렌드는 사실 이른 시기에 말무더기를 이뤘을 뿐이다. 기술은 아직 성숙하지 않았는데, 대중적인 유명세를 얻어 지나치게 높은 기대를 받았다가 실망을 준 것이다. 분명히 실존했고, 현재에 필수로 사용되는 기술이며, 지금도 그리고 앞으로도 발전할 기술이다. 그렇게 기술은 대중화되고 인기를 얻어 일상화된다.
AI 에이전트는 무엇인가
AI 에이전트는 일의 흐름을 설계하고 사용 가능한 도구를 활용해 사용자나 다른 시스템을 대신해 자율적으로 작업을 수행할 수 있는 시스템 또는 프로그램으로 설명된다. AI 에이전트는 의사 결정, 문제 해결, 외부 환경과의 상호 작용 및 작업 실행을 포함해 자연어 처리 이상의 광범위한 기능을 포괄한다. AI 에이전트는 다양한 애플리케이션에 포함될 수 있다. 에이전트는 대규모 언어 모델(LLM)의 고급 자연어 처리 기술을 사용해 사용자 입력을 단계별로 이해하고 응답하며 외부 도구를 호출할 시기를 결정한다.
AI 에이전트의 특징은 ▲자율성 ▲반응성 ▲선제성 ▲적응성 ▲목표지향성 등을 갖는다. AI 에이전트는 인간의 개입없이 독립적으로 작동한다. 외부와 환경의 자극에 반응해 대응한다. 에이전트는 질문을 받거나 어떤 계기 없이 목표 달성을 위해 선제적으로 활동할 수 있다. 경험을 통해 학습하고 결과를 바탕으로 행동을 조정하는 적응력도 가졌다. 특정 목표를 추구하도록 설계돼 해당 목표를 최적화하는 결정을 내린다.
지금 내가 쓰는 AI는 뭐지?
AI란 용어는 너무 광범위하기에 때로 혼란을 준다. 챗GPT 이전에 애플의 시리, 구글 어시스턴트, 아마존 알렉사도 AI였고, 10년 전 이세돌과 바둑 대결에서 이긴 딥마인드의 알파고도 AI였다. 챗GPT도 AI다. 그리고 AI 에이전트도 AI라고 한다.
가장 가까운 시점의 챗GPT와 AI 에이전트의 차이점은 무엇일까. 학자를 제외하고 일반인(?) 중 IT분야에서 가장 유명하고 통찰력있는 인물 중 하나는 빌 게이츠일 것이다. 빌 게이츠는 작년 11월 ‘AI는 컴퓨터 사용 방식을 완전히 바꿔놓을 것‘이란 글에서 AI 에이전트에 대한 전망을 적었다. 그는 과거의 소프트웨어를 ‘멍청하다’고 평하면서 AI 에이전트를 1995년에 구상했지만 최근에야 실용화됐다고 했다.
“소프트웨어가 수십 년 동안 많이 발전했지만, 여러 면에서 소프트웨어는 여전히 꽤 멍청하다. 컴퓨터에서 어떤 작업을 하려면 기기에 어떤 앱을 사용할 지 알려줘야 한다. 업무, 개인 생활, 관심사, 관계에 대한 이해가 부족하고, 이 정보를 사용해서 대신해 일을 처리할 수 있는 능력이 제한적이다. 이는 오늘날 절친한 친구나 개인 비서와 같은 다른 인간을 통해서만 가능한 일이다. 앞으로 5년 안에 이는 완전히 바뀔 것이다. 다른 작업에 다른 앱을 사용할 필요가 없다. 일상 언어로 기기에 무엇을 하고 싶은지 말하기만 하면 된다. 그리고 얼마나 많은 정보를 공유하기로 선택했는지에 따라 소프트웨어는 여러분의 삶을 풍부하게 이해하고 있기 때문에 개인적으로 응답할 수 있다. 가까운 미래에 온라인에 있는 모든 사람은 오늘날의 기술을 훨씬 뛰어넘는 인공지능으로 구동되는 개인비서를 가질 수 있을 것이다.”
그는 과거 마이크로소프트 오피스의 ‘클리피(Cliffy)’를 예로 들면서 “클리피는 에이전트가 아니라 봇이었다”고 말한다. 오늘날의 AI 에이전트는 사람과 미묘한 대화를 나눌 수 있을고, 훨씬 더 개인화되며, 편지 쓰기 같은 간단한 작업에 국한되지 않을 것이라고 봤다.
“오늘날 사용 가능한 AI 도구 대부분은 봇이다. 이들은 하나의 앱으로 제한되며 일반적으로 특정 단어를 쓰거나 도움을 요청할 때만 개입한다. 어떻게 사용했는지 기억하지 못하기 때문에 더 나아지거나 선호 사항을 학습하지 않는다. 에이전트는 더 똑똑하고 적극적이다. 요청하기 전에 제안을 할 수 있다. 그들은 여러 애플리케이션에서 작업을 수행한다. 그들은 당신의 활동을 기억하고 당신의 행동의 의도와 패턴을 인식하기 때문에 시간이 지남에 따라 향상된다. 이 정보를 바탕으로 그들은 당신이 필요하다고 생각하는 것을 제공하겠다고 제안하지만, 항상 최종 결정을 내릴 것이다.”
챗GPT는 챗봇이다. 사람과 대화할 수 있는 형태를 가졌고, 사람의 말을 알아듣고 사람의 말로 대답한다. 어느정도 지식도 가졌다. 그러나 반드시 사람의 질문을 받아야 작동하고, 2차 3차의 질문으로 답을 구체화한다. 챗GPT는 스스로 일하지 않는다. 또한 자기의 말이 거짓말인지, 참말인지도 구분하지 못한다. 그저 알고 있는 모든 것을 적당한 상황에 내뱉을 뿐이다. 스스로 결정하지도 않는다. 카메라로 눈을 갖게 되고, 스피커로 발화할 수 있지만 표현의 방식이 문자에서 음성과 이미지로 다양해질 뿐 스스로 일을 시작하고 완료할 수 없다는 건 같다.
챗GPT 외에 시중의 여러 생성형 AI 서비스, 앱은 보조도구 혹은 부조종사 정도로 묘사된다. 사람의 바로 옆에서 지시에 따라 특정 작업을 대신하는데, 지시 가능한 작업은 특정한 것에 제한된다. 그림을 그리거나, 음악을 만들거나, 메일을 쓰거나, 제안서를 만들거나, 채팅을 요약하거나 등이다. 이런 일을 사람말고 컴퓨터에게 시킬 수 있다는 것도 충분히 놀랍지만, 이 AI는 사람의 명령에 종속되고 업무 범위를 넘어갈 수 없다.
오픈AI의 AGI를 향한 5단계
지난 7월 오픈AI의 인공일반지능(AGI) 로드맵 5단계 내부 문서가 외부에 알려졌다. 오픈AI에 따르면, AI는 대화형 챗봇, 추론자(Reasoners), 에이전트(Agent), 혁신자(Innovators), AI 조직(Organizations) 순으로 진화한다.
대화형 챗봇은 오픈AI의 GPT-4 같은 언어모델이다. 사용자의 입력을 기반으로 자연어를 이해하고 맥락을 인식해 의도에 맞는 대화를 생성한다. 챗GPT는 그런 언어모델에 사용자인터페이스(UI)를 추가한 앱으로 볼 수 있다. 다음의 추론자는 인간 수준으로 깊이있는 전문 지식을 갖춰서 복잡한 문제를 해결할 수 있는 AI 시스템이다. 단순히 자연어를 생성하는 것을 넘어 문제를 이해해 논리적으로 추론하고 해결책을 만들어낸다.
에이전트는 장기간 자율적으로 작동할 수 있는 AI 시스템으로 묘사된다. 복잡한 작업을 수행하고 결정을 내릴 수 있으며, 지속적으로 변화에 적응한다. 인간의 지속적인 감독없이 이런 작업을 수행한다. 에이전트는 AI 자율성과 실용성에서 중요한 도약이며, 복잡한 작업을 독립적으로 처리함으로써 산업을 혁신할 잠재력을 갖는다고 평가된다. 에이전트 개발은 문제 해결 능력과 실제 시나리오에서 독립적인 개체로 기능할 수 있는 능력 간의 격차를 좁히는 중요한 단계다.
혁신가는 새로운 아이디어와 개념을 제시하고 솔루션을 만들어낼 정도의 능력을 가진 시스템이다. 문제해결을 넘어서 창의성을 발휘한다. AI 조직은 일반적인 조직과 단체에서 수행하는 광범위한 작업을 관리하고 실행할 수 있는 시스템이다. 의사결정, 관리 및 운영, 실행 등의 기능을 통합해 조직 내 여러 영역에서 자율적으로 기능한다.
문서가 처음 만들어졌을 시점에 오픈AI는 2단계인 추론가 수준에 근접했다고 봤다. 그리고 현재 에이전트에 근접했다고 판단하는 것으로 알려진다.
이런 기준을 온전히 따르지 않더라도, 현재 AI가 단계적 발전을 지향하고 있다는 점은 분명하다. 이 로드맵은 AI의 급진적인 발전을 경계하고 각 단계별로 변화에 대응할 준비를 하라고 시사한다.
AI 에이전트는 현재 어느 정도에 왔나
지난달 말 앤트로픽은 ‘컴퓨터 유즈(Computer use)’란 기능을 공개했다. 클로드 3.5 소넷(Claude 3.5 Sonnet) 언어모델에 기반한 AI 에이전트가 컴퓨터 모니터의 커서를 움직여 클릭하고, 텍스트를 입력한다. 검색하고 API로 다른 앱에 연결해 다음, 그 다음의 임무를 차례대로 수행한다. 에이전트는 컴퓨터 안의 여러 도구를 평가하고, 가장 적합한 도구의 사용을 ‘결정’한다. 다만, 사람이 클로드에게 작업을 지시하는 단계는 필요하다. 명령을 받아서 목표를 달성하는데, 그 중간의 구체적인 단계를 사람이 지정하지 않는다.
마이크로소프트는 비즈니스 앱 제품군인 ‘다이나믹스 365’에서 ‘자율 에이전트(autonomous Agent)’를 선보였다. 마이크로소프트 코파일럿을 기반으로 여러 작업을 맡길 수 있는 AI 에이전트를 만들 수 있다고도 했다. 에이전트들은 개인, 팀 또는 부서를 대신해 비즈니스 프로세스를 실행하고 조율하며, 코파일럿은 에이전트와 상호작용하며 다양한 작업을 수행한다. 에이전트는 영업, 서비스, 재무, 공급망 등의 업무를 지원할 수 있다.
이처럼 AI 에이전트는 다양한 앱에서 사람의 일을 도와주지만, 한번 명령을 받은 이후부터 자율성을 갖는다. 목표 달성까지의 과정과 방법도 AI 에이전트에게 맡기는 것이다. 일정 부분에서 자기 완결성도 갖는다. AI는 최종 목표까지 가는 과정에 필요한 소소한 결정을 사람의 개입없이 할 수 있다.
기술적 과제
수많은 AI 에이전트의 시제품이 나오고, 실제로 AI 에이전트란 이름을 달고 출시되는 제품을 엄연한 의미의 AI 에이전트로 볼 수 있을까?
사실 현재 대형언어모델(LLM)과 대화형 챗봇은 ‘환각(Hallucination)’ 현상을 완전히 해결하지 못했다. AI가 자기의 말을 진짜로 이해하지 못하기 때문이다. 챗GPT와 각종 챗봇은 너무 천연덕스럽게 거짓말을 하고, 거짓말이란 것조차 인지하지 못한다. 그저 명령을 받아 답을 뱉어낸다. 사람은 반드시 챗봇에서 제공되는 답변의 진위를 체크해야 하고, 출처도 확인해야 한다.
매우 활발히 사용되는 개발자용 코딩 보조도구도 그렇다. 깃허브 코파일럿 같은 AI 코딩도구는 꽤 훌륭하게 소프트웨어 코드를 만들어낸다. 이미 검증된, 다양한 논리 구조를 활용하므로 오류도 적을 수 있다. 그러나 완벽하진 않다. AI가 오류를 학습해서 오류를 답으로 내놓을 수 있다. 그래서 생성된 코드를 검증할 사람이 꼭 필요하다. AI 에이전트에게 ‘이 일을 해줘’라고 했을 때, 에이전트가 그 명령을 달성하기 위해 자기만의 코드를 만들어 실행한다고 가정해보자. 만약 그 코드가 심각한 오류를 포함해 잘못된 결과로 나아간다면 어떨까? 사람은 명령의 이행결과만 받게 될 것이다. 피해는 누가 입을 것이며, 또 책임은 누가 질 것인가. 이 숙제를 온전히 해결하고서야 자율성 있는 진정한 AI 에이전트라 할 수 있겠다.(무슨 일을 할 지 모르는 대리인에게 어떻게 일을 맡기겠나?)
그럼 ‘에이전틱 AI’는 또 뭐지?
요즘은 또 새로운 용어가 등장했다. ‘에이전틱 AI(Agentic AI)‘다. 에이전틱 AI는 약간 더 발전한 것으로 볼 수 있다.
AI 에이전트는 어디까지나 사전에 가드레일을 설정하고, 활동 범위를 제약해 프로그램된다. 보안, 개인정보 보호(Privacy), AI 윤리 등에서 에이전트의 제작자가 정의한 지침, 지식, 행동을 따르게 돼 있다. 따른다기보다 천장과 벽을 만들어서 그 이상으로 나아가지 못하게 원천차단한 것이다.
에이전틱 AI는 그보다 더 광범위한 개념이다. 미리 정의된 규칙이나 학습된 패턴에 따라 작업을 수행하지만, 인간과 유사하게 자율적인 의사결정도 할 수 있다. 자신의 행동, 결과, 장기 목표를 전체적으로 이해하며, 문제해결에서 더 높은 유연성과 창의성을 발휘한다.
인간의 안내 없이도 결정을 할 수 있고, AI 에이전트보다 더 복잡하고 장기적인 결과를 고려한다. 간단한 자동화와 달리 더 광범위한 목표에 초점을 맞춰 이를 달성하는 전략을 생성할 수 있다. 자신의 환경에 대한 모델을 갖고 있어서 더 미묘한 의사결정을 할 수 있다. 도덕적이고 윤리적인 추론도 할 수 있다. 또 즉시적 효과와 장기적 효과를 모두 고려해 인간적인 방식으로 결과에 영향을 미치는 여러 요소를 평가한다. 자기의 전문 분야를 넘어 또 다른 분야도 학습하고 적용할 수 있다.
오픈AI의 5단계 로드맵에서 에이전트와 혁신가의 중간 어디쯤이라고 볼 수 있다.
다만, AI 에이전트와 에이전틱 AI란 용어는 여기저기서 혼용되는 듯하다. 엔비디아는 두 단어를 하나의 뜻으로 쓴다. 엔비디아는 최근 ‘에이전틱 AI’를 AI의 다음 단계라고 했는데, 정교한 추론과 반복적인 계획을 사용해 복잡한 다단계 문제를 자율적으로 해결하는 존재라고 설명했다. 현 시점에서의 에이전틱 AI 기술 최신(last) 버전이라 할 수 있다.
에이전틱 AI 시스템은 여러 출처로부터 방대한 양의 데이터를 수집해 독립적으로 문제를 분석하고 전략을 개발한다. 에이전틱 AI는 문제 해결을 위해 인식(Perceive) 추론(Reason), 행동(Act) 학습(Learn) 등의 4단계로 작동한다. 다양한 출처에서 데이터를 수집하고 의미 있는 특징을 추출하고, 객체를 인식하거나, 환경 내 관련 개체를 식별하는 작업을 한다. LLM은 작업을 이해하고, 솔루션을 생성하며, 콘텐츠 제작, 비전 처리, 추천 시스템과 같은 특정 기능을 위한 전문 모델을 조율하는 역할을 하는 추론 엔진의 역할을 한다. 검색증강생성(RAG) 같은 기술이 정확성 확보에 활용된다. API로 외부 도구, 소프트웨어와 통합되며 수립한 계획에 따라 작업을 신속하게 실행할 수 있고, AI 에이전트가 작업을 올바르게 실행할 수 있도록 가드레일을 설정할 수 있다. 피드백이나 상호작용에서 생성된 데이터로 지속적으로 개선된다.
AI 에이전트가 던지는 질문들
AI 에이전트의 숙제는 아직 많다. 연구자들은 AI 에이전트의 데이터 구조를 어떻게 할 지 확정하지 못하고 있다. 개인의 관심사와 관계, 뉘앙스를 모두 이해하고 개인정보보호도 유지하면서 정보도 빠르게 회수할 수 있는 데이터 구조가 필요하다. 얼마나 많은 에이전트로 구분할 것이냐도 문제다. 에이전트가 할 수 있는 작업의 범위, 수준을 어느 정도로 할 지 확실하지 않다. 수많은 에이전트를 어떻게 관리하는가 문제도 있다. LLM이 에이전트의 운영체제(OS)가 될 수 있을까, 아니면 새로운 에이전트 관리 체계가 나와야 할까. 수많은 개발자의 AI 에이전트가 다른 AI 에이전트와 소통할 때는 어떻게 할까. 아직 에이전트 간 대화를 위한 표준 프로토콜이 없다. 에이전트를 사용할 수 있는 비용 장벽도 아직 높다. 에이전트를 쓸 수 있는 사람과 그렇지 못한 사람 간의 장벽을 허물어야 차별과 계급화를 막을 수 있다.
또 에이전트가 사람의 명령을 거부하는 상황에 이른다면 어떻게 할 것인가. 편견을 학습한 에이전트가 인간에게 해를 끼친는 것은 어떻게 막아야 할까. 빌 게이츠는 “에이전트가 해서는 안 될 일을 하도록 만들고 싶지 않지만, 나는 악의적인 에이전트보다 인간 범죄자가 에이전트를 악의적인 목적으로 사용하는 것이 더 걱정한다”고 했다. 악의적인 목적으로 에이전트를 만드는 것을 어떻게 방지할 것인가.
빌 게이츠는 또 새로운 고민을 던진다. 사람과 사람의 관계에서 AI 에이전트의 역할을 어떻게 받아들이느냐다.
“에이전트는 우리가 친구 및 가족과 상호작용하는 방식에 영향을 미칠 수 있다. 오늘날, 당신은 누군가의 삶에 대한 세부 사항을 기억함으로써 당신이 그들을 소중히 여긴다는 것을 보여준다. 하지만 그들이 당신의 에이전트가 당신에게 그것을 상기시키고 꽃을 보내는 것을 처리했다는 것을 알고 있다면, 그것이 그들에게 의미가 있을까?”
AI 에이전트는 그냥 멀리서 지켜볼 소동은 아니다. 누군가의 용어 장난이라 하더라도, 분명히 누군가는 AI 에이전트를 목표로 기술을 개발하고 있고, 구현 방법을 만들어내고 있다. 지금 당장은 아니어도 가깝든 멀든 어느 시점에 실제로 우리 눈앞에, 우리 일상에 다가와 있을 녀석이다. 그 파괴적 혁신의 충격에 대비해야 한다. AI 에이전트로 가는 길에 넘어야 할 산도 많고, 해결해야 할 숙제도 많다. 더구나 AI 에이전트의 실제 등장 시점에 그를 받아들일 사회적, 정치적 준비가 전혀 돼 있지 않다면, 그로 인한 혼란과 피해는 인간이 고스란히 떠안아야 한다. 그 준비를 위해서라도 AI 에이전트란 용어는 알아둘 필요가 있다. 인식은 고민과 대화의 첫 단계다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network