2시간 대화가 1052명의 ‘AI 쌍둥이’로···한국인 박사가 만들었다

※화학물질 규소(Si)를 뜻하는 실리콘은 ‘산업의 쌀’ 반도체의 중요한 원재료입니다. ‘실리콘밸리’처럼 정보기술(IT) 산업 그 자체를 뜻하기도 합니다. ‘김상범의 실리콘리포트’는 손톱만 한 칩 위에서 인류의 미래를 이끄는 전자·IT 업계 소식을 발빠르게 전하는 칸업 콘텐츠입니다. 더 많은 내용을 읽고 싶으시면 로그인해 주세요!

인생에 관한 2시간가량의 깊은 대화, 이를 정리한 20장 분량의 텍스트, 그리고 생성형 인공지능(AI)만 있다면, 나처럼 생각하고 판단하고 감정도 느끼는 ‘디지털 쌍둥이’를 탄생시킬 수 있다.

21일 업계에 따르면 미국 스탠퍼드대와 구글 딥마인드 등으로 이뤄진 연구진이 이달 초 펴낸 하나의 논문이 AI 연구자들을 놀라게 했다. ‘1000명의 생성형 에이전트(대리인) 시뮬레이션’이라는 이 논문의 초록은 다음과 같다. “우리는 1052명의 삶에 대한 심층 인터뷰를 통해 이들의 태도와 행동을 그대로 모방하는 에이전트를 생성했습니다.”

타인의 속내를 정확히 파악하는 건 불가능하다. ‘열 길 물속은 알아도 사람 속은 모른다’는 말이 그 어려움을 웅변한다. 복사(copy)는 두말할 나위도 없다. 수백 장의 텍스트는 ‘컨트롤 C’ 한 번이면 간단히 사본을 뜰 수 있지만 인간의 마음은 그게 안 된다. 나와 똑같이 말하고 생각하고 행동하는 ‘도플갱어 괴담’은 그저 괴담일 뿐이었다.

하지만 연구진은 대형언어모델(LLM)과 생성형 AI를 통해 사람의 마음을 상당한 정확도로 복제해냈다. 연구를 주도한 스탠퍼드대 컴퓨터공학과의 한국인 박사과정생 박준성 연구원은 경향신문과의 e메일 인터뷰에서 “생성형 AI로 인간의 태도·행동 시뮬레이션을 구축하기 위해 몇 년간 노력해 왔다”며 “각종 복잡한 사회적 문제를 해결하는 데 도움이 될 수 있다고 믿는다”고 말했다.

먼저 연구진은 각양각색의 학력, 인종, 성별, 정치적 이념 등을 지닌 1052명의 조사 대상을 선정했다. 그리고 이들의 가치관과 인생 경험을 묻는 2시간가량의 인터뷰를 진행했다. 참가자들은 “사람보다 소가 많은 시골에서 자랐다”“고등학교 시절 심한 우울증에 시달렸다. 정말 끔찍했다”는 등의 이야기를 오픈AI ‘GPT-4o’로 생성한 AI 인터뷰어에게 털어놓았다. 미국 전국여론조사센터가 매년 실시하는 ‘종합사회조사(GSS)’, 개방성·성실성·외향성 등을 측정하는 ‘빅파이브(Big 5) 성격검사’도 이뤄졌다.

한 사람의 성격, 가치관, 선호도 등이 담긴 ‘데이터 뭉치’가 이렇게 마련됐다. 인터뷰 분량은 평균 6491단어, A4용지 약 20장 수준이다. 연구진은 이에 더해 가상의 AI 심리학자·행동경제학자·정치학자·인구통계학자에게 개별 데이터 뭉치에 대한 진단을 내리도록 했다. “자신의 독립성을 중시하고 자율성을 선호하는 사람(심리학자)”“이민·마약 정책은 공화당 견해를 지지하지만 낙태권에서는 민주당을 지지하는 사람(정치학자)” 같은 추상적 분석을 가미해 정확도를 높였다.

이렇게 가공된 데이터 뭉치를 AI 모델이 학습했다. 그리고 마침내 실험 참가자의 디지털 쌍둥이, ‘생성 에이전트’가 탄생했다. 에이전트는 아주 복잡한 방정식으로 이뤄진 일종의 ‘함수 상자’에 가깝다. 질문(x값)을 넣으면 ‘이 사람이라면 어떻게 행동(대답)할까?’라는 결괏값(y 값)을 내놓는다.

정확도 검증을 위해 연구진은 GSS에서 매년 묻는 핵심 문항을 에이전트에 입력했다. GSS 문항은 성 역할에 대한 견해, 총기 규제에 대한 의견, 종교적 신념 등을 묻는 말들로 이뤄져 있다. 이 검사에서 실제 조사대상자가 답변한 것과 AI 쌍둥이가 답변한 결과는 85%가량 일치했다. 빅파이브 성격검사에서는 75%의 정확도를 보였다. 상당히 높은 정확도다.

‘실제 인간을 모방하는 AI 에이전트를 만들 수 있다면, 이들로만 이뤄진 사회도 조성할 수 있지 않을까?’ 이런 상상은 이미 박 연구원이 지난해 8월 발간한 논문 ‘생성 에이전트: 인간 행동의 상호작용’이라는 논문에서 현실화했다. 박 연구원과 스탠퍼드 연구진은 AI 캐릭터 25명으로 이뤄진 가상 세계를 만들었다. 이들은 서로 데이트를 하거나 정치 토론을 벌이는 등 사람처럼 행동했는데, 주목할 점은 사전에 전혀 프로그래밍되지 않았다는 것이다.

예컨대 ‘파티를 열어라’라는 단순한 임무를 주면 AI들은 초대장을 만들고 약속을 잡는 행동을 ‘스스로 알아서’ 추론해냈다. 박 연구원은 “흥미롭게도 이러한 에이전트는 때로 창발적 행동(emergent behavior·예기치 못한 행동)을 보였다”라며 “명시적으로 프로그래밍되지 않은 행동을 집단적으로 생성했다”고 말했다.

AI 에이전트의 쓸모는 무궁무진하다. 이미 건설·제조·자연과학 등에서는 물리적 세계를 가상현실에 옮긴 ‘디지털 트윈’ 기술이 널리 쓰인다. 간단한 시뮬레이션만으로 공장의 동선을 개선하거나 건축물의 결함을 찾아낼 수 있어 비용 절감 및 효율화 수단으로 각광받는다. 이제 물리적 대상뿐만 아니라 인간의 정신세계까지 쌍둥이를 만들어낼 수 있게 된 것이다.

살아있는 인간이나 실제 사회를 대상으로 하기에는 비용·윤리 측면에서 어려움이 있는 다양한 실험을 AI 에이전트에게 수행할 수 있다. 소셜미디어에서의 정보 확산, 특정 정책에 대한 대중의 반응 등을 미리 점쳐볼 수 있다. 콘텐츠 산업에서도 잠재력이 크다. 올해 초에는 음성·얼굴 복제로 영상화된 디지털 쌍둥이를 만들어 주는 스타트업 ‘타부스(Tavus)’가 1800만달러의 신규 투자자금을 확보하기도 했다.

박 연구원은 “또 다른 팬데믹에 직면한다고 상상해보라. 봉쇄나 마스크 의무화 같은 정책을 시행하면 공중보건과 경제에 미치는 영향이 적지 않다”라며 “이 시나리오를 사전에 AI 에이전트를 대상으로 시뮬레이션하면 정책 입안자에게 도움을 줄 수 있다”고 말했다.

물론 윤리적 우려도 있다. 미국 정보기술매체 ‘MIT테크놀로지리뷰’는 “AI 에이전트는 훨씬 더 개인적이고 해로운 딥페이크를 만들 수 있다”라며 “누군가의 목소리, 선호도, 성격을 쉽게 복제할 수 있다면 위험이 더욱 심화될 것”이라고 지적했다. 스탠퍼드 연구팀도 “윤리적 문제로 1년 이상 씨름했으며 실험 참가자가 자신들의 데이터를 언제든지 철회할 수 있도록 했다”고 밝혔다.

박 연구원은 “이러한 시뮬레이션이 중요한 사회적 과제를 해결할 수 있는 잠재력을 가지고 있다는 사실에 흥분하고 있다”라며 “앞으로의 기회는 방대하며, 세계가 직면한 복잡한 문제에 대한 더 나은 해결책을 탐구할 것”이라고 덧붙였다.