숭실대 권민혜 교수팀, NeurIPS 2024서 ‘다중 에이전트 심층강화학습 기술’ 발표

숭실대학교(총장 장범식)는 전자정보공학부 권민혜 교수팀이 국제 저명 인공지능 학회 ‘NeurIPS 2024’(Neural Information Processing Systems, 신경정보처리시스템학회)에서 사회적 의사결정이 가능한 다중 에이전트 심층강화학습 기술을 발표한다고 밝혔다.

NeurIPS 2024는 인공지능, 신경과학 등 그 해를 대표하는 최고의 AI 기술이 논의되는 자리로, 오는 12월 10일부터 15일까지 캐나다 밴쿠버에서 개최된다. 권 교수팀은 ‘Episodic Future Thinking Mechanism for Multi-agent Reinforcement Learning’이라는 제목의 연구를 통해 복잡한 행동 성향이 공존하는 다중 에이전트 시스템 내 의사결정 문제를 해결하는 혁신적인 접근 방식을 제시할 예정이다. 이 기술은 자율주행, 협동 로봇과 같은 복잡한 시스템 내의 에이전트 성능 향상에 한층 기여할 것으로 기대된다.

권 교수팀은 인지과학 분야에서 연구되는 ‘에피소드 기반 미래 예측(Episodic Future Thinking, EFT)’ 기능을 심층강화학습 모델에 적용해, 다중 에이전트 시스템에서 미래의 시나리오를 예측하고 최적의 의사결정을 내릴 수 있는 기술을 개발했다. EFT는 AI 에이전트가 관찰한 정보를 바탕으로 주변 에이전트의 행동 시나리오를 시뮬레이션해 본인에게 유리한 최적의 행동을 선택하도록 하는, 인간과 동물의 인지 과정을 모방한 메커니즘이다.

이번 연구의 핵심은 다양한 ‘캐릭터(character)‘를 가지는 에이전트들로 구성된 사회(society)를 정의하고, 이들 간의 상호작용을 고려했다는 데 있다. 여기서 ‘캐릭터’란 에이전트가 의사결정을 내릴 때 우선적으로 고려하는 보상 요소들의 가중치 조합으로, 각 에이전트가 특정한 행동 선호도를 갖도록 한다. 예를 들어, 자율주행 자동차 시나리오에서 운전 스타일이 각기 다른 차량들이 상호작용하는 상황을 모델링할 수 있다. 한 에이전트는 안전성에 높은 가중치를 두고, 또 다른 에이전트는 속도에 더 큰 가중치를 두도록 해 다각적인 행동 특성을 구현한다.

권 교수팀의 연구 방법론은 역합리제어(inverse rational control, IRC) 기법을 활용해 타 에이전트의 행동을 관찰하고 캐릭터를 추론하는 것이다. IRC는 권 교수팀이 지난 NeurIPS 2020에서 발표한 방법론으로, 계산신경과학, 강화학습 등 행동지능 분야에서 활발하게 활용되고 있다. 이렇게 추론된 캐릭터 정보를 바탕으로 타 에이전트의 미래 행동을 예측하고 잠재 시나리오를 시뮬레이션해, 다중 에이전트 환경 내에서 각기 다른 캐릭터와 최적의 상호작용을 도모한다.

연구진은 해당 기법을 자율주행 시나리오를 포함한 여러 다중 에이전트 시나리오에 적용해 성능을 검증했다. 그 결과, EFT를 통해 각 에이전트가 다중 캐릭터와 상호작용하면서 기존의 강화학습 기법보다 높은 보상을 얻었고, 다양한 캐릭터가 존재하는 대규모 환경에서도 성능이 안정적으로 유지되는 것을 확인했다.

권민혜 교수는 “숭실대 학생들과 함께 NeurIPS에서 연구 결과를 발표하게 돼 기쁘다”며 “이번 연구가 다중 에이전트 시스템 내 예측적 AI 기능을 확장하고, 자율주행 및 복잡한 공학 시스템에 기여할 수 있기를 기대한다”고 소감을 밝혔다. 이번 연구는 AI의 사회적 의사결정에 대한 새로운 가능성을 열며, 다양한 AI 응용 분야에서 활용될 수 있을 것으로 기대된다.