
SK텔레콤이 한국어 특화 대규모언어모델(LLM)인 에이닷 엑스 4.0을 오픈소스로 공개한다.
SK텔레콤은 3일 오전 세계적인 오픈소스 커뮤니티 허깅페이스를 통해 에이닷엑스 4.0의 표준 모델과 경량 모델 2종을 공개했다. 이번에 공개한 에이닷엑스 4.0은 현존 LLM 중에서도 최상급의 한국어 처리 효율성은 물론 데이터 보안을 고려한 설계, 그리고 로컬 환경에서의 운영 가능성 등이 강점이다. 오픈소스 모델인 Qwen2.5에 방대한 한국어 데이터를 추가로 학습시켜 국내 비즈니스 환경에 최적화된 성능을 발휘한다.
SK텔레콤은 에이닷엑스 4.0의 토크나이저를 자체 설계 및 적용해 높은 수준의 한국어 처리 역량을 구현했다. 토크나이저는 문장의 구조를 분석해 토큰으로 분할하는 작업도구를 말한다. 자체 테스트 결과 같은 한국어 문장을 입력했을 때 에이닷엑스 4.0은 GPT-4o보다 약 33%가량 높은 토큰 효율을 기록하며, 다른 LLM 대비 높은 정보 처리용량에 비용 절감까지 가능한 경제성을 갖췄다.
또한 에이닷엑스 4.0은 대표적인 한국어 능력 평가 벤치마크인 KMMLU(한국어 대규모 다중과제 언어 이해 평가)에서 78.3점을 기록, GPT-4o(72.5점)보다 우수한 성능을 보였으며, 한국어 및 한국 문화 벤치마크인 CLIcK에서도 83.5점을 획득해, GPT-4o(80.2점)보다 더 높은 한국 문화 이해도를 입증했다.
SK텔레콤은 추후 에이닷엑스 4.0을 기업 내부 서버에 직접 설치해 사용할 수 있는 온프레미스 방식으로 제공해 기업들이 데이터 보안에 대한 걱정을 덜 수 있도록 서비스할 계획이다. 온프레미스는 클라우드가 아닌 자체 전산 서버에 직접 설치하고 운영하는 방식이다. 또한 SK텔레콤은 이번 에이닷엑스 4.0 지식형 모델의 오픈소스 공개와 동시에 추론형 모델의 발표도 앞두고 있다. 이달 중으로 수학 문제 해결과 코드 개발 능력이 강화된 추론(Reasoning)형 모델을 공개하고, 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 수준까지 모델을 업데이트할 계획이다. 또한 소버린 AI 관점에서 에이닷엑스 3.0에 적용한 프롬 스크래치(From Scratch)5) 방식도 병행하여 개발을 진행하고 있으며, 후속 모델도 순차적으로 공개할 예정이다.