네이버·카카오, '옴니모달' 고도화 속도…내년 생성형 AI 기술 경쟁 본격화

2025-11-25

옴니모달은 텍스트·이미지·음성 등을 한번에 학습

사용자 억양과 감정까지 학습할 수 있는 모델

카나나-o와 하이퍼클로바X 모두 옴니모달로 고도화

네이버와 카카오가 내년 인공지능(AI) 에이전트 서비스의 장벽을 낮추기 위한 '옴니 모달리티(Omnimodality)' 경쟁에 뛰어든다.

옴니 모달리티는 텍스트·이미지·음성·비디오 등 다양한 형태의 데이터를 통합된 공간에서 처리하고 학습하는 AI 모델이다. 내년 AI 에이전트 서비스에서 추론 기능과 함께 핵심 AI 기술로 활용될 전망이다.

25일 업계에 따르면 카카오는 멀티모달 모델인 '카나나-o'의 다양한 서비스 적용을 위한 최적화 작업을 진행 중이며, 내년에는 카나나-o를 옴니 모달리티 모델로 고도화한다.

카나나-o는 카카오의 비전 모델인 '카나나-v'와 오디오 모델인 '카나나-a'를 결합해 만든 모델이다. 카카오는 지난 5월 카나나-o의 성능 평가 결과를 공개한 바 있고, 이미 카카오톡의 숏폼 분석에 활용하고 있다. 이를 더 많은 서비스에 적용하기 위해 검토 중이다.

옴니 모달리티 모델은 기존의 멀티모달 AI와 달리 개발 단계부터 텍스트와 이미지, 음성 신호를 하나의 모델 안에서 공동 학습한다. 텍스트·이미지·음성 등 원하는 형태의 입력을 어떤 형태로든지 출력해 자연스럽게 상호작용하는 점이 특징이다. 각각 학습해야 하는 멀티모달보다 진전된 기술이다.

카나나-o는 사용자의 억양과 감정까지 분석해 자연스럽게 대화할 수 있는 능력이 강점인데, 이를 토대로 더 자연스러운 의사소통을 위한 보강 학습을 단행할 것으로 전망된다.

카카오 관계자는 “어떤 형태 콘텐츠가 들어와도 입력과 출력이 자유롭고, 더 발전된 버전의 모델을 만들고 있다”며 “실 서비스 적용을 목표로 최적화를 진행하고 있다”고 밝혔다.

네이버는 '독자 AI 파운데이션 모델' 사업에서 옴니 모달리티 기술을 탑재한 '하이퍼클로바X'를 공개한다. 내년 1월 평가가 진행되는 만큼 이 시기 공개될 가능성이 높다.

네이버 관계자는 “하이퍼클로바X 시드처럼 별도로 브랜딩을 할지, 기존 서비스에 접목하는 방식으로 할지는 정해지지 않았다”면서도 “(하이퍼클로바X는) 기존의 멀티모달 모델에서 옴니모달 모델로 고도화하고 있다”고 설명했다.

옴니 모달리티 기술이 고도화되면 네이버와 카카오가 공개할 AI 에이전트 서비스에도 기술이 활용될 전망이다. 양사는 내년 서비스의 핵심으로 AI 에이전트를 지목한 바 있다. 네이버는 통합형 AI 플랫폼인 '에이전트N'을 선보이고, 카카오는 카카오톡을 중심으로 한 AI 에이전트 서비스를 강화할 계획이다. 음성, 이미지, 텍스트 등 다양한 입력 방식을 갖춘 옴니 모달리티 기술은 AI 에이전트 접근성을 낮출 수 있다.

양사는 AI 에이전트 구현을 위한 추론 기술도 강화하고 있다. 네이버는 지난 7월 하이퍼클로바 X 시드 14B 씽크를 무료 오픈소스로 공개했다. 카카오는 연내 추론 능력을 강화한 카나나2 모델을 공개하는 것을 목표로 개발 중이다. 카나나2는 이전의 카나나 1.5 버전에서 최신 구조인 '전문가 혼합(MoE)'이나 '멀티헤드 잠재 어텐션(MLA)'을 적용해 효율을 강화했다. 카카오는 카나나2를 오픈소스로 공개하는 방안도 검토한다.

변상근 기자 sgbyun@etnews.com

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.