
KT가 한국적 맥락을 반영한 인공지능(AI) 개발을 위해 기업·교육 기관 등과 손 잡았다. 글로벌 빅테크가 주도하는 AI 시장 속에서, 한국의 언어와 문화를 제대로 이해하는 AI를 만들기 위한 ‘데이터 동맹’을 꾸린 것이다.
무슨일이야
KT는 16일 서울 송파구 소피텔 앰배서더 호텔에서 ‘K 데이터 얼라이언스’ 협약식을 개최했다고 밝혔다. 고품질 한국어 데이터 공유 및 협력을 통해 한국형 AI 생태계를 구축하기 위한 협약이다. 얼라이언스에는 고려대 민족문화연구원, 두산디지털이노베이션, 아이스크림에듀, 중앙일보, 한국교육방송공사(EBS), 한글학회 등이 참여했다. KT는 각 기관이 보유한 콘텐트를 선별해 AI 학습용 데이터로 정제한 뒤, 이를 KT가 자체 개발한 모델 믿:음 2.0, 마이크로소프트(MS)와 협업해 개발 중인 GPT 모델 등에 학습시켜 ‘한국형 AI’로 만들 계획이다.
뭘 하는거야
얼라이언스의 주요 목적은 한국어 및 한국적 맥락을 이해하는 AI를 만들기 위해 고품질의 데이터를 모으는 것이다. AI의 성능과 신뢰도는 무엇을 얼마나 잘 학습했냐, 즉 어떤 데이터를 기반으로 학습했냐에 달려 있다. 오픈AI, 구글 등 해외 빅테크가 만든 AI는 주로 서구권의 영어 데이터를 기반으로 학습했기 때문에 서구 편향성에 대한 의구심에서 자유롭지 못했다. 몇 년 사이 빅테크 AI의 외국어 성능이 좋아져 한국어는 잘 구사하게 됐지만, 한국 문화나 역사에 특화된 질문을 했을 때는 응답 품질이 떨어졌던 이유다.
얼라이언스에 참여한 기업·기관들이 보유한 데이터는 실제 한국 사회에서 축적된 신뢰도 높은 1차 자료라는 장점이 있다. EBS가 보유한 콘텐트는 질문-답변 형태로 구조화된 피드백 기반 학습 데이터로, AI 모델의 핵심 기능인 추론 능력을 향상시킬 수 있는 최적화된 자원이다. 중앙일보는 한국 사회를 입체적으로 반영한 시의성 있는 뉴스, 한글학회는 한국어 연구 자료 등을 보유하고 있다. 이를 학습 시키면 단순히 웹에 있는 데이터만 학습시켰을 때보다 편향·유해 표현 생성 같은 부작용을 줄일 수 있다. 허은 고려대 민족문화연구원 원장은 ”한국적 AI 발전을 위해 높은 수준의 한국학 전문 자료를 AI 학습용 데이터로 활용하는 것은 필수”라고 말했다.
앞으로는
KT는 향후 ‘데이터-모델-서비스’로 이어지는 생태계를 구축하기 위해 얼라이언스 규모를 늘릴 계획이다. 개발한 한국형 AI 모델을 바탕으로 실제 생활에서 사용하는 AI 서비스로 구현하는 게 목표다. 오승필 KT 기술혁신부문 부사장은 “한국형 AI는 국가의 AI 경쟁력을 높이는 동시에 사용자들이 체감할 수 있는 실제 서비스로 이어져야 한다”며 “K 데이터 얼라이언스가 한국형 AI의 고도화와 실용화를 이끄는 핵심 동력이 되도록 협력할 것”이라고 말했다.