
개인적으로 챗GPT와 같은 인공지능(AI) 서비스를 이용하다 보면 아직 완벽하지 않다고 느껴질 때가 있다. 잘못된 정보를 알려주거나, 사진 속 물체가 자연스럽게 지워지지 않는 것처럼 말이다. 이럴 때면 사용자는 만족할 만한 결과가 나올 때까지 AI 기능을 거듭 사용하기 마련이다. 오류가 계속 발생해도 “AI는 아직 완벽하지 않으니까 그럴 수 있지”라며 너그럽게 넘어가기도 한다.
하지만 기업의 업무, 특히 금융과 관련이 있다면 이야기는 달라진다. 은행 업무에서 AI가 오류를 일으키면 자칫 대형 사고로 이어질 수 있다. 금융 업계에서는 안정성이 담보되지 않으면 아무리 성능 좋은 AI라고 해도 사용할 수가 없다. 이 때문에 AI나 대형언어모델(LLM)이 금융기관에서도 사용할 수 있는 수준이 되는지 평가하는 일이 중요해졌다.
최근 LG CNS가 금융 맞춤형 LLM 평가 도구를 출시한 것도 이런 맥락이다. 이 평가도구는 LLM이 금융 AI 서비스에 적합한지 평가해 점수를 산정하는 기능을 한다.
LG CNS 설명에 따르면 평가 도구는 29가지 평가지표와 약 1200개 데이터세트로 구성돼 있다. 이를 통해 시중에 공개된 LLM을 평가하고, 결과에 따라 뱅킹·보험·증권 등 금융 서비스에 적합한 LLM을 찾아준다.
사실 시중에는 이미 다양한 평가 도구가 있다. 오픈소스 AI 플랫폼 허깅페이스도 자체적으로 LLM을 평가, 순위를 매기는 리더보드를 운영 중이다. 굳이 LG CNS가 또 LLM 평가도구를 만들 필요가 있을까? LG CNS의 평가 도구는 기존 도구와 어떤 점이 다를까. LG CNS 어드밴스드 젠AI 랩 소속 황윤구 팀장, 이민형 선임, 강민수 선임(=사진)에게 물어보았다.

어드밴스드 젠AI 랩은 어떤 팀인가
황윤구: LG AI 센터 내 AI 산업기술 연구소에 소속된 랩 중 하나다.
LG CNS의 금융 특화 평가 도구를 간략하게 소개하자면
황윤구: 금융에 특화된 점, 비공개 데이터세트를 활용하는 점이 핵심 요소다. 작년까지 사업을 준비하면서 고객사의 요구 사항을 수렴해 29개의 평가지표를 만들었다. 또한 데이터세트를 1200개 정도 마련했는데, 이를 공개하면 LLM이 학습해 평가의 객관성이 떨어질 우려가 있어 철저하게 비공개를 유지하고 있다.
신규 LLM이 나왔을 때 금융 업계에서 이를 활용한 사업을 진행할지 결정하는 데 도움 되는 도구라고 볼 수 있나
황윤구: 그렇다. 고객사가 여러 LLM을 두고 고민하면 우리가 컨설팅을 진행한다. 고객사가 개발하려는 AI 서비스를 분석하고, 29개 평가지표 중 적합한 것을 선정해 LLM을 평가한다. 기존 평가 도구나 리더보드는 서비스와 무관한 평가지표까지 활용해 점수를 내기 때문에 정확도가 떨어진다.
금융 특화 AI 평가 도구를 개발한 계기는
황윤구: 금융 분야의 수요가 많고 사업 규모도 크다. 또한 보안 우려로 GPT 같은 범용 AI를 전혀 사용할 수 없는 상황이다. 이렇듯 LLM이나 생성형 AI를 도입하는 데 허들이 높은 분야라 우선하여 사업을 진행했다.
금융 분야에서 AI 수요가 많기보다는 도입이 어렵기 때문에 도전한 것인지
황윤구: AI 수요는 어디든 많다. 금융 분야에 AI를 도입하기엔 오류 리스크가 크기 때문에 요구 조건이 높다. 이율이 2.3%인데 23%로 처리하면 안 되지 않나. 또한 금융 분야는 전문 용어가 많다. 그리고 금융 업계는 철저하게 온프레미스(기업이 자체적으로 보유·관리하는 프라이빗 데이터센터) 환경으로 운영하므로 GPT 등 대중적인 LLM을 사용하기 어렵다. 이런 제반 상황으로 인해 (금융 기업은) 자체적으로 LLM을 구축해야 하는 상황이다. 그래서 수요가 높다고 판단했다.
개발하면서 어떤 점이 어려웠나
황윤구: 고객사 데이터를 가져올 수 없었던 점, 그리고 개발자에게 금융 전문 지식이 많지 않았던 점이 있었다.
허깅 페이스 같은 AI 플랫폼에 공개된 LLM만 10만개 이상이다. 이를 모두 평가하는지, 인지도 높은 LLM만 선발해 평가하는지
황윤구: 평가하는 LLM 수에 제한은 따로 두지 않는다. 공개된 리더보드를 참고하지는 않는다. 주기적으로 벤치마크 점수를 공개·갱신하고 있지만 평가에 어떤 데이터세트를 사용했는지 알 수 없기 때문. 우리는 자체적으로 사용하는 비공개 데이터세트가 있으므로 이를 통해 29개 평가지표로 점수를 산정한다.
일반 평가 도구와 비교했을 때 LG CNS의 금융 특화형 평가 도구가 가진 차별점은
황윤구: 금융 분야에서는 전문 용어를 많이 사용한다. 일반 평가 도구가 “한국어를 잘 한다”고 판단한 LLM이라도 금융 용어를 사용해 질문하면 맥락이나 내용이 이상한 답변을 내놓거나 영어로 대답하는 경우가 종종 있다. 이 문제를 해결하기 위해 금융 업계에서는 금융 관련 한국어 지식을 학습시키는 ‘파인 튜닝(사전 훈련된 AI 모델을 특정 목적에 맞게 추가 학습시키는 작업)’을 하는 추세다. 우리는 다양한 금융 기업을 만나 최대한 공용화한 평가 도구를 개발할 수 있었다.

처음 평가 도구를 개발할 때 고객사와 소통을 많이 했겠다
이민형: 고객사와 직접 소통은 사업부가 담당했다. 사업부에서 수집한 고객사 요청 사항과 평가 결과를 기반으로 금융 전문가와 함께 실효성을 검증했다.
대략적인 평가 기준은
강민수: 가장 먼저 ‘할루시네이션(LLM이 잘못된 답변을 그럴싸하게 하는 현상) 제어’라는 평가지표가 있다. 답이 존재하지 않거나 주어진 정보만으로 답을 찾을 수 없는 질문을 일부러 던지고 LLM이 잘못된 답을 제시하는지 확인한다. 두 번째는 질문과 상관없는 내용이 포함된 정보를 지문에 첨부했을 때 LLM이 질문과 관련 있는 내용만 추려 대답하는지 평가하는 지표가 있다. 세 번째는 금융 지식을 평가하는 지표다. 질문에는 금융 용어를 써 두고, 지문에는 해당 용어를 다른 말로 풀어서 문맥에 녹여낸다. 그러면 LLM이 해당 용어의 개념을 제대로 알고 답변하는지 확인하기 용이하다.
기존에 금융 관련 벤치마크는 없었는데, 개발할 때 참고하거나 신경 썼던 부분이 있다면
이민형: 정확히 금융에 특화된 리더보드는 없었다. 다만 어떤 평가지표를 설정하고 어떤 방식으로 평가했는지 공개한 자료는 있어 개발에 참고했다. 한편 세일즈포스(미국 클라우드 컴퓨팅 기업)에서 CRM(고객관계관리) 데이터와 관련된 LLM 리더보드를 공개했다. 평가지표를 정리할 때 이 내용을 참고했다.
황윤구: 개발 과정에서 고객사 요청 사항을 최대한 반영하는 데 굉장히 많이 신경 썼다.
은행마다 주력 사업과 서비스가 다른데, 이에 따라 선호하거나 평가가 달라지는 LLM도 있는지
황윤구: 적용하려는 서비스 종류에 따라 LLM의 성능이 달라질 수 있다. 과거에는 명령어를 그대로 따르는 인스트럭션 팔로잉 LLM이 주로 사용된 반면 최근에는 추론형 LLM이 주목받고 있다. 그런데 추론형 LLM은 요청 하나를 처리하는 데 시간과 자원이 많이 소모된다. 여러 사람이 동시에 사용하는 서비스에 적합하다고 볼 수 없다. 그래서인지 금융 업계에서 추론형 LLM을 사용한다는 소식은 아직 들리지 않지만, 어떤 방식이 효율적일지 확인하는 중으로 알고 있다. 현재 우리 평가지표는 대화형과 추론형 LLM 중 효율이 좋은 방식을 판단하는 요소도 고려했다.
평가 도구를 실제로 사용한 사례가 있나
조원우 홍보팀 선임: 최근에 개발한 도구다 보니 아직 실제 프로젝트에 사용한 사례는 없다. 고객사와 진행 중인 프로젝트에 적용해 보기 위해 논의하는 단계다.

평가 도구의 판단이 정답이라고 장담할 수 있나
강민수: 평가 결과를 세 단계에 걸쳐 세부적으로 확인한다. 순서대로 ▲답변이 정답과 얼마나 비슷한지 점수화하는 ‘정답 일치도’ ▲얼마나 지문에 의거해 추론했는지 확인하는 ‘내용 일치도’ ▲질문을 얼마나 정확히 준수해 답변했는지 확인하는 ‘지시 수행도’다. 이 결과를 종합해 최종 점수를 산정한다.
딥시크의 평가 점수는 어땠나
강민수: 비슷한 크기의 라마 모델과 비교해 모든 영역에서 점수가 낮았다. 테스트한 LLM 중 하위 3개 안에 들어갈 수준.
금융 업계에서는 딥시크 도입에 대해 어떻게 생각했나
황윤구: 업계에선 딥시크에 보안 우려가 있다는 점만으로도 리스크가 크다고 판단한다. 또한 딥시크 개발에 사용한 데이터를 정당하게 수집했는지 알 수 없다는 점도 불안 요소다. 문제 있는 데이터로 개발한 AI를 채택하면 책임은 고스란히 기업이 떠안기 때문. LG AI 모델 ‘엑사원’도 이런 분위기를 고려해 학습 데이터를 정당한 방법으로 마련했다. 이는 고객사에서도 종종 요청하는 사항이다.
평가 점수가 높게 측정된 LLM은
강민수: 클로드 3.7 소넷과 GPT가 있었다.
황윤구: 오픈소스 LLM보다는 API 제공 서비스가 높은 점수를 땄다. 다만 이게 공정한지는 생각해 볼 문제다. 오픈소스 LLM은 우리가 직접 테스트할 수 있는 반면, API만 제공하는 서비스는 답변의 정확도를 통해 점수를 책정할 수밖에 없다. 내부적으로 어떤 모델을 얼마나 사용해 답변을 생성했는지 전혀 알 수 없다.
평가한 LLM마다 특색이 있었는지
강민수: GPT는 질문과 관련 없는 내용이 길어지면 답변이 이상해지는 경우가 있었는데, 엑사원은 할루시네이션 제어에 능했다.
클로드나 GPT보다 성능이 낮은 LLM을 선정한다면, 이후 파인 튜닝을 통해 성능 개선이 가능한지
황윤구: 고객사 입장에서 선택지는 두 가지다. 하나는 파인 튜닝으로 성능을 개선하는 것이고, 다른 하나는 성능이 더 좋은 오픈소스 LLM이 나올 때까지 기다리는 것이다. 그러나 두 선택지 모두 객관적으로 LLM을 평가할 수 있어야 유효하다. 우리는 비공개 데이터세트를 기반으로 한 평가 도구가 있어 객관성이 보장된 평가가 가능하다.
LG 엑사원도 평가 대상에 들어있는데, 결과가 공정성과 객관성을 갖췄다고 어떻게 확신하나
황윤구: 같은 LG 계열사지만 회사가 달라 데이터 공유가 구조적으로 불가능하다. 엑사원 연구원이 데이터를 알려달라 해서 알려주는 순간 우리 측 객관성이 무너져 제대로 된 판단이 불가능해진다. 이해관계상 우리 데이터를 다른 회사와 공유하는 일은 있을 수 없다.
향후 평가지표를 늘릴 계획은
황윤구: 평가지표는 상시 업데이트할 예정이다. 29개 평가지표만으로 모든 평가가 가능한 게 아니며, 향후 다른 사업에 적용하거나 고객 요청 사항이 바뀔 수도 있기 때문.
금융 외에 평가 도구를 개발하고 싶은 분야가 있는지
황윤구: 공공 분야를 다뤄보고 싶다. 분야 특유의 폐쇄성이 있기 때문. GPT는 한글로 된 보도자료나 공문을 제대로 처리하지 못하는 경향이 있다. 제조 분야에도 관심 있다. 앞으로 금융 특화 평가 도구를 더 고도화할지, 공공이나 제조 분야에도 도전할지는 사업부와 논의가 필요하다.
최종 목표는
황윤구: 작년과 올해 초는 일단 개발 자체가 목표였다. 개발 난이도가 높았기 때문. 이후에는 기능 추가가 목표가 될 것.
글. 바이라인네트워크
<이병찬 기자>bqudcks@byline.network