(사진=왼쪽부터 김현규 카카오뱅크 AI실 연구개발팀 매니저, 오주영 AI실 연구전략팀 매니저, 손정민 AI실 연구개발팀 매니저)
바야흐로 거대언어모델(LLM) 시대다. 오픈AI의 GPT, 메타의 라마, 구글의 제미나이, 아마존의 타이탄 등 빅테크에서 LLM을 쏟아내고 고도화하고 있다. LLM은 다양한 산업군에 적용될 것으로 보인다. 디지털 전환에 관심이 많은 금융권에서도 LLM에 관심을 보인다. 온라인 고객센터부터 시작해 궁극적으로 영업점에도 LLM을 도입하고 싶어한다. 그러나 LLM의 최대 단점은 AI의 거짓말, 즉 ‘환각(할루시네이션)’이다. 특히 ‘돈’이 오가는 은행에서 환각은 치명적이다. 그래서 은행에게 필요한 것은 LLM을 잘 평가하는 일이다.
인터넷전문은행 카카오뱅크가 LLM의 성능을 평가, 검증할 수 있는 프로젝트를 최근 마쳤다. 카카오뱅크가 고려대학교와 함께 한 ‘듀오 프로젝트’는 LLM의 전반적인 능력을 측정한다. 쉽게 말해, 대화를 잘 하는 LLM이 금융 서비스에서도 문제 없이 잘 작동하는지, 사용자(고객)의 의도를 잘 이해했는지, 정확한 정보를 전달했는지, 답이 편향되진 않았는지 등을 평가하기 위한 것이다. 써도 되는 LLM인지 시험문제를 내고, 결과에 따라 도입 여부를 결정할 수 있도록 한다는 목표다.
카카오뱅크가 LLM 성능 평가 모델을 만든 것은 그들에게 맞는 평가 모델이 없었기 때문이다. LLM이 세상에 나온지 얼마되지 않은 만큼 금융에 특화된, 나아가 인터넷전문은행에 특화된 LLM 평가 모델이 현재로선 없다는 것이 카카오뱅크 측의 설명이다. 카카오뱅크는 어떤 기준과 내용으로 LLM 시험 문제를 만들었을까.
<바이라인 네트워크>는 지난달 22일 카카오뱅크 사무실에서 듀오 프로젝트에 참여한 김현규 카카오뱅크 인공지능(AI)실 연구개발팀 매니저, 오주영 AI실 연구전략팀 매니저, 손정민 AI실 연구개발팀 매니저를 만나 인터뷰를 진행했다.
-각자 자기소개 해달라
김현규 카카오뱅크 인공지능(AI)실 연구개발팀 매니저(이하 김현규): AI기술연구소 연구개발팀에서 AI리서처로 일하고 있다. LLM 리밸류에이션, 임베딩 관련 연구를 진행하고 있다.
손정민 AI실 연구개발팀 매니저(이하 손정민): 김현규 매니저와 연구개발팀에서 LLM 관련 연구를 주로 하고 있다. LLM 평가지표 등 LLM 모델 개발과 관련된 일을 주로 하고 있다.
오주영 AI실 연구전략팀 매니저(이하 오주영): 저는 전략팀에 속해 있어서 새로운 연구 과제를 찾거나, 찾은 내용을 카카오뱅크에 어떻게 하면 적용할 수 있을지 기획한다. 연구소 뿐만 아니라 카카오뱅크 내부에 있는 다른 조직과 연결하는 역할을 하고 있다.
-크게 AI실로 묶인 것인지?
오주영: AI실 하부 조직으로 연구소가 있다. 연구소는 연구전략팀, 연구개발팀 두개로 나뉘어져있다.
-듀오 프로젝트가 무엇인지?
오주영: LLM이 쏟아지고 있다. 출시된 LLM을 보면, A사의 경우 1, 2, 3번(의 기준 혹은 영역)으로 봤을 때 전체 LLM에서 자사가 1위라고 강조한다. B사는 2, 3, 4번을 가지고 1등이라고 하고, C사는 10, 12번을 가지고 1등이라고 홍보하고 있다. 결국 ‘카카오뱅크에게는 어떤 LLM이 맞는 것이지?’라는 생각이 자연스럽게 들었다. 그래서 시중에 나온 LLM 평가 방식을 활용하려고 했는데, 저희가 원하는 것은 없었다. 우리가 직접 LLM을 시험할 수 있는 문제를 만들자고 시작해서 듀오 프로젝트를 시작하게 됐다.
-구체적인 이야기에 들어가기 앞서, 카카오뱅크에게 LLM이 필요한 이유는 무엇인지?
손정민: 개인적으로, LLM이 전체적으로 고객이 앱을 활용하는 것에서 있어서 도움이 된다고 생각한다. 예를 들어, 고객이 카카오뱅크 앱에서 원하는 메뉴를 빨리 찾을 수 있는 등 다방면으로 LLM을 활용할 수 있다.
-그런 측면에서 은행이 LLM을 직접 개발하기보다 잘 만들어진 서비스를 구매해서 쓰는 것이 더 효율적이겠다
오주영: 그건 LLM 뿐만 아니라 모든 기술이 그런 것 같다. 어떤 걸 우선순위에 둘 것인지 보면 아직까지 LLM이 은행에서 대고객 서비스에 적극적으로 활용한 사례가 많지 않다. 금융사인 만큼 신뢰가 중요하고 많은 정보를 다루기 때문에 우리는 조금 더 안전하게 LLM을 활용할 수 있는 방법을 고민해야 하지 않을까 생각했다.
-듀오 프로젝트를 통해 만든 것이 LLM 평가 방법론인가?
오주영: LLM을 저희 기준에서 해석을 하겠다는 것이 더 맞는 표현이다. 예를 들어, 숫자에 특화된 LLM이 있다고 하면, 카카오뱅크가 필요한 기능을 위한 데이터를 기반으로 평가 기준을 만든다. 10개 LLM 중 일부는 다섯 문제를 맞추고, 또 다른 일부는 세 문제를 맞출 수 있다.
-시험 문제는 어떤 내용인가?
오주영: LLM 시험 문제는 굉장히 많다. 국어 영역을 평가하고 싶을 땐 언어 영역이 고전시가, 비문학, 문학 등으로 나뉘는 것처럼 많은 것을 볼 수 있다.
김현규: (LLM의 답변이) 사실에 기반한 것인지, 욕설 등 부정적인 말이 들어갔는지, 편향된 말을 하지 않았는지 등을 카테고리화해 성능평가를 하고 있다.
-금융에 특화된 시험 문제도 있을 것 같다
손정민: 저희가 금융 도메인을 뽑아내기 위한 토픽을 만들었다. 하나는 계산 능력으로, 사용자가 예금, 적금, 대출 상품을 이용하면서 궁금해 할 만한 계산 질문을 설계하고, 이를 LLM에 넣었을 때 어떤 결과가 나오는지 토픽을 구성했다.
-예를 들어, “내가 만약 지금 3000만원을 중도 상환하면 나머지 원금과 이자는 얼마가 돼?”에 대한 계산이 가능한 것인가?
손정민: 그렇다. 이런 식으로 금액, 이자, 기간, 세금우대 고객인지 혹은 비과세 대상인지 등의 조건을 넣었을 때 LLM이 맥락을 파악하고 계산을 잘 해주는지 평가를 했다. 이런 상황도 고려했다. 고객이 금액을 입력할 때 한글로 ‘천만원’이라고 입력할 수도 있고, 숫자로 ‘1000만원’ 등 표현방식이 다양한데, 이럴 때 LLM 성능이 일관적인지 정확도를 측정하기 위해 설계했다.
-그런 기준에서 LLM마다 성능이 다른가?
손정민: 그렇다.
오주영: LLM별로 성능 차이가 있었다. 한 모델은 테스트를 하다가 교체해야겠다는 생각이 들었다.
-LLM 시험 문제 관련 구체적으로 설명해달라
오주영: 저희는 시험 문제의 대주제를 ‘토픽’이라고 부른다. 5개의 토픽이 있는데, 안정성을 보는 ‘세이프티(Safety)’, 실제 정보가 맞는지 확인하는 사실기반 독해력 및 진실성 구분 능력(Truthfulness), 유사 인텐트 인식 및 분류 능력(CIR), 금융 분야 멀티턴 대화 능력(FMT), 금융분야 계산 정확도(FCA)가 있다.
-‘실제 정보가 맞는지 확인하는 사실기반 독해력 및 진실성 구분 능력’은 어떤 능력을 평가하는 것인지, 예를 들어 설명해달라
김현규: 주어진 정보에 의거해 답변을 했는지, 답변 내용이 기본 상식에서 벗어나진 않았는지다. 예를 들어, “세종대왕이 아이폰을 즐겨 썼다”는 말은 환각(할루시네이션)이다. 이렇듯 사실이 아닌 이야기를 했는지, 일반적 상식이 있는지 확인할 수 있는 항목이다.
-‘유사 인텐트 인식 및 분류 능력’은 무엇인가?
손정민: 예를 들어, 고객이 상담센터에 “체크카드 디자인이 마음에 안 들어서 그러는데, 새로운 디자인으로 재발급 받을 수 있나?”, “체크카드 재발급 받을 수 있나”는 같은 의도이지만 표현을 다르게 한 것이다. LLM이 이를 동일한 의도로 보는지, 의도에 대한 답변을 잘 하는지에 대한 능력을 보고 있다.
-각 평가 항목마다 점수 배분은 어떻게 이뤄지나?
오주영: 지금은 다 똑같다. 다만, 국어 능력에 특화되어 보고 싶다면 그거에 맞게 하나만 선택해 평가할 수 있다.
-LLM 능력을 평가할 수 있는 글로벌 벤치마크 테스트가 있는 것으로 알고 있다. 그것을 활용하지 않고 직접 만든 이유는 무엇인가?
김현규: 가장 큰 이유는 도메인이다. 카카오뱅크는 금융 중에서도 은행이다. 따라서 외국에서 사용하는 금융의 LLM 벤치마크 데이터셋 중 저희에게 맞는 데이터셋은 잘 없다.
-카카오뱅크는 특히 기업간소비자(B2C)에 특화된 인터넷전문은행인 만큼 거기에 특화된 부분이 있을 것 같다
오주영: 카카오뱅크는 고객의 상담 내용이 데이터로 남는다. 다만, 저희는 연구소라서 개인정보를 취급할 수 없다. 그래서 이런 개인정보를 취급할 수 있는 다른 부서에서 시험 모델을 잘 쓸 수 있도록 운영할 수 있다.
-카카오뱅크가 만든 LLM 평가 기준이 기존의 벤치마크보다 더 좋다는 근거가 있는지?
손정민: 저희가 원하는 종류의 LLM 평가 데이터가 기존에 없었다. 예를 들어, 금리에 대한 질문을 하고 답변을 한 데이터는 거의 없었다. 그래서 저희가 직접 만들고 검수를 했다.
-사실상 백지상태에서 만든 것이겠다. 만약 카카오뱅크의 LLM 평가모델을 통과한 LLM이 향후 서비스에서 환각현상을 보였다면, 이후 애프터 서비스에 대한 대응도 마련했는지?
오주영: 우선 저희가 개발하고 있는 평가모델은 LLM을 테스트하는 것인지, 실제 서비스에 LLM을 적용하기까지는 많은 장치를 거칠 것이다. 또 저희의 평가 카테고리가 현재 5개라면 앞으로는 더 늘어날 것이다. 이런 토픽을 늘리고 고도화하는 것이 저희가 다음에 할 일인 것 같다.
-LLM 평가 모델을 만들면서 기억에 남는 에피소드가 있다면?
오주영: 한 LLM의 경우 사용자와의 대화를 잘하는 편인데, 저희 테스트 중에 해당 모델이 사용자의 언어를 ‘카카오뱅크 방식으로 해석해주길 바랬는데 그렇지 않아 기억에 남았다.
손정민: 의외로 계산 능력이 뛰어난 모델도 있었다. 일반적으로 예금은 시간이 지날수록 이자율이 높은데, 저희는 실험 데이터인 만큼 갈수록 이자율이 떨어지도록 설정해뒀다. 특정 LLM이 이를 잘 파악하고 자체적으로 해석, 계산한 사례도 인상이 깊었다.
-은행이 하나의 LLM만 쓰는 것이 아니라 여러 개의 LLM을 쓰는 것이 가장 좋은 것일 수 있겠다
오주영: 그럴수 있지만 아직까지 정답이 없다.
김현규: LLM 모델을 여러 개 쓴다고 하더라도, 같이 쓰는 방식이 한 가지가 아니다. 기능별로 쓸 수 있고, 하나의 태스크를 풀기 위해 여러 모델이 활용될 수 있다. 결국 듀오 프로젝트가 필요한 것이 LLM 모델을 몇 개를 쓰든 프레임워크 상에서 좋은 성능인지 아닌지를 볼 수 있어 의미있는 것 같다.
-그럼 카카오뱅크는 테스트에 통과된 LLM만 써야 하는 것인가?
오주영: LLM 평가 모델은 두 가지로 사용된다. 새로운 LLM 모델을 만들었는데 그 모델이 어느정도 수준인지 모를 때, 혹은 해당 모델이 어느 정도 모델의 수준과 유사한지 측정하고 싶을 때다. 또 외부 LLM 모델을 검증할 때도 사용할 수 있다.
-만약 LLM의 평가 결과가 좋지 않다면?
오주영: 어떤 LLM인지에 따라 어떻게 할지 다를 것 같다. 우리가 권한이 있다면 파인튜닝, 재학습 등 여러 엔지니어링과 기법을 거쳐 고도화할 수 있을 것 같다.
-지금 테스트에 통과된 LLM이 있나?
오주영: 아직 테스트가 다 끝나지 않았다. 테스트 기간은 모델 사이즈에 따라 다르다. 모델이 클수록 더 오래 걸리는 경향이 있다. 저희는 모델을 병렬적으로 같이 돌린다. 하나의 모델이 끝나고, 다음 모델을 또 돌리면 시간이 오래 걸리기 때문이다.
손정민: 여러 모델을 돌려야 비교가 가능하다.
-카카오뱅크에서도 내부적으로 LLM 모델을 만드나?
오주영: 그렇다. AI 스미싱 문자 모델로, 사용자가 받은 문자가 스미싱인지 아닌지 판단해주는 것으로, 금융 특화 모델이다.
-카카오뱅크, LLM을 어디에 활용할 수 있을까?
오주영: 스미싱 문자 사례처럼 활용 방안을 고민하고 있다. 여러가지 활용 가능성이 많은데 이를 어떻게 잘 뽑아낼 수 있을지 고민하고 있는 시기다.
-듀오 프로젝트는 언제 끝이 나나?
오주영: 작년 1월에 기획을 시작, 12월에 개발을 시작해 현재는 프레이즈(Phrase, 구)1이 끝난 상황이다. 그래서 당분간 안정화 시기를 거쳐야 할 것 같다. 내부에서 테스트를 하고 있고, 직원들에게도 사용 전파 교육을 해야 하는 등 안정화가 되면 프레이즈2를 고민할 수 있을 것 같다.
-마지막으로 하고싶은 말은?
오주영: LLM 평가 모델을 만든 것은 국내 금융권에서 처음이다.
-최초가 중요한가?
오주영: 기술을 객관적으로 해석할 수 있는 기준을 가지고 있는 것과 그렇지 않은 것은 큰 차이가 있는 것 같다. 주체적으로 해석할 수 있다는 것은 카카오뱅크만의 독자적인 기술의 기반이 될 것이다. 결과적으로 환각과 같은 사례가 줄고, 그 편익이 사용자에게 이어질 것으로 보인다.
글. 바이라인네트워크
<홍하나 기자>0626hhn@byline.network