
금융위원회가 국내 금융권의 생성형 인공지능(AI) 개발을 지원하기 위해 45기가바이트(GB) 규모의 한국어 데이터를 제공한다.
금융위는 31일부터 전 금융권을 대상으로 ‘금융 특화 한글 말뭉치’를 제공한다고 30일 밝혔다.
AI 모델이 금융 분야의 다양한 전문 지식을 가공·처리·분석할 수 있도록 한국어 언어 자료를 모은 것이 이 말뭉치의 특징이다. 약 45GB 규모로 데이터 건수는 총 1만 2600건이다.
금융 특화 한글 말뭉치는 크게 △학습용 △검색증강생성용 △평가지원용으로 나뉜다. 학습용 말뭉치는 AI가 금융 전문 지식을 습득할 때 활용한다. 크게 금융 분야 일반 지식을 담은 사전학습용 말뭉치와 금융 정책·제도·가이드라인을 수록한 추가학습용 말뭉치로 나뉜다.
검색증강생성용 말뭉치는 AI가 보다 정확한 답변을 도출하도록 돕는 역할을 한다. 검색증강생성은 AI 모델이 외부 특화 데이터나 최신 정보를 검색한 뒤 결과물을 생성하도록 해 정확도와 신뢰도를 높이는 방법을 뜻한다. 금융위는 AI가 법규 개정안을 반영하지 않고 잘못된 답변을 낼 수 있다는 점을 감안해 금융소비자보호법·전자금융거래법과 같은 각종 법률의 조문을 활용해 검색증강생성용 말뭉치를 만들었다.
이 같은 학습·검색증강생성용 말뭉치와 별도로 AI 모델의 추론능력·지식을 검증하기 위한 평가지원용 말뭉치도 지원할 계획이다. 생성형 AI에서 나타나는 환각·편향 문제를 방지하려는 취지다.
금융위는 금융결제원 데이터 공유 플랫폼을 통해 말뭉치를 제공할 계획이다. 올해 6월까지 시범사업을 진행한 뒤 하반기부터 말뭉치 유형과 규모를 늘릴 방침이다. 내년부턴 은행·보험·카드처럼 각 업권별로 특화된 말뭉치를 지원하는 것이 목표다.