[단독] 통계청, 'AI 오류' 없애는 DB 설계 세계 첫 성공

2025-09-15

통계청이 인공지능(AI)의 고질적인 약점으로 꼽히는 ‘통계 산출 오류'를 해결할 수 있는 ‘메타데이터 데이터베이스(DB)’ 설계에 성공했다. 통계청이 AI 선도기관으로서 국제 표준을 선도할 토대를 마련했다는 평가가 나온다.

통계청은 연내 메타데이터 DB 설계도 초안을 공개할 예정이라고 15일 밝혔다. 그동안 챗GPT 같은 초거대언어모델(LLM)은 통계표나 도표를 단순한 텍스트 뭉치로 인식해 통계 산출에 큰 오류가 있었다. 표 안에 실업률·고용률 수치가 어떤 산식과 정의를 거쳐 계산된 것인지, 적용 연령이나 지역이 어디인지 같은 맥락을 전혀 이해하지 못한 것이다. 이 때문에 “최근 10년 한국 실업률 최고치는 월 별 기준으로 언제인가”와 같은 간단한 질문에도 엉뚱한 답을 내놓거나 아예 응답을 포기하는 사례가 잦았다. 통계청 관계자는 “AI가 표를 제대로 읽지 못하면 국가 정책 의사 결정이나 민간 연구에서 심각한 오류가 발생할 수 있다”고 말했다.

이같은 AI의 통계 산출 오류를 없애고 도표로 정확한 데이터를 산출하는 능력을 키우기 위해 통계청은 1년간 실무 작업에 착수했고 결국 설계에 성공했다. 통계청이 설계한 메타데이터 DB는 ‘온톨리지 스키마’ 방식이 핵심이다. 온톨리지는 데이터 속 개념과 관계를 지식 그래프 형태로 구조화하는 기술이다. 단순히 숫자 배열이 아니라 ‘정의·단위·적용 대상·출처·개정 이력’ 같은 의미 태그를 표에 입히는 것이다. 예컨대 실업률 지표라면 △산식(실업자÷경제활동인구×100) △단위(%) △적용 연령·지역 △출처 △개정 이력 등이 함께 기록된다. 이렇게 되면 AI는 숫자 하나를 맥락이 담긴 데이터로 인식할 수 있고, 질문자가 시계열 분석을 요구할 때도 오류 없이 정확한 그래프를 제시할 수 있게 된다. 메타데이터 DB가 통계청의 설계대로 온전히 구축된다면 사용자가 오픈AI에서 ‘최근 10년치 고용률 수치를 도표로 그려달라’는 주문을 하면 오류 없이 오픈AI가 작업을 수행할 수 있게 된다.

통계청은 오는 12월 안으로 메타데이터 DB 설계도 초안을 공개하고 내년 시범테스트를 거쳐 2027년부터 표준화 작업을 추진할 방침이다.

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.