[if카카오2024] ‘카나나’ 패밀리, 고성능 강조…비주얼 생성도 OK

카카오가 23일 카카오 AI 캠퍼스에 마련한 개발자 컨퍼런스 ‘if(kakaoAI)2024’에서 통합 인공지능(AI) 브랜드로 내세운 ‘카나나(Kanana)’의 현재와 미래를 공개했다. ▲고성능 ▲투명하고 신뢰할 수 있는 데이터 학습 ▲서비스 최적화를 고민한 비용 효율적 모델이라는 점을 강조했다.

김병학 카카오 카나나알파 성과리더<사진>는 if(kakaoAI)2024 2일차 기조 세션에 카나나가 ‘라마’와 ‘큐웬(Qwen)’ 등 글로벌 AI 오픈소스 모델과 비슷하거나 동등한 성능을 보이는 가운데 한국어 처리에 있어서 압도적 처리 성능을 가졌다고 짚었다.

현재 카나나 모델들은 언어모델(LLM) 3종과 멀티모달 언어모델(MLLM) 3종, 비주얼 생성모델 2종과 음성모델 2종으로 크기나 종류, 특성에 따른 하위 모델들로 라인업이 구성됐다.

‘나노-에센스-플래그’ 등 사이즈별 LLM 갖춰

김 성과리더는 카나나 LLM 가운데 중간 사이즈인 ‘카나나 에센스(Essence)’ 모델을 실용성 측면에서 전면에 내세웠다. 현재 글로벌 최고 성능을 가진 유사 사이즈의 대표 모델과의 성능 비교에서 유사하거나 높은 성능을 보이는 것으로 나타났다는 게 그의 설명이다. 모바일 디바이스에서도 활용할 수 있는 초경량 모델은 ‘카나나 나노(Nano)’, 현재 개발 중인 가장 큰 사이즈 모델이 ‘카나나 플래그(Flag)’다.

특히, 한국어 논리 및 추론을 평가하는 KMMLU, HAE-RAE 벤치마크에서 확실한 우위를 보였다고 전했다. 모바일 디바이스에서도 활용 가능한 초경량 모델인 ‘카나나 나노’ 역시 유사 사이즈의 글로벌 대표 모델들과 비교했을 때 전반적인 벤치마크에서 평균적으로 탁월한 성능을 보였고, 한국어 성능에서도 압도적 성능을 나타냈다고 힘줘 말했다.

“최근 공개된 오픈소스 모델들과 비교해 봤을 때 평균적으로 탁월한 성능을 보여주고 있습니다. 한국어에 대해선 압도적인 성능을 보여주고요. 베이스 모델이 만들어진 이후, (사용자의 명확히 지시를 이해하고 따르는) 인스트럭트 모델을 만들게 됩니다. 이 인스트럭트 모델도 각 벤치마크에서 유사 사이즈의 글로벌 모델과 비교했습니다. 두 모델 모두 영어는 비슷하거나 약간 높은 수준을 보여줍니다. 여기서 끝나는 게 아니라 좀 더 서비스에 특화된 방향으로 포스트 트레이닝 과정을 거칩니다.”

김 성과리더는 인스트럭트 모델 역시 다양한 분야의 벤치마크에서 글로벌 모델들과 비교한 결과, 평균적으로 높은 성능을 보였다고 했다. 현재 인스트럭트 모델에서 보다 서비스에 특화된 방향으로 능력치를 향상시키기 위해 추가 훈련 과정을 거쳐, 검색증강생성(RAG), 펑션콜(Function call), 요약 등과 같이 태스크에 특화된 전용 모델을 개발 중이라고 언급하며, 전용 모델의 고성능을 예고했다.

“포스트 트레이닝 방법은 저희가 되게 유니크하다고 생각하고 있고요. 대화를 잘하는 비즈니스 모델을 가지고 있고 사용자가 원하는 전문 지식은 RAG으로, 필요한 액션은 펑션콜 전용 모델로 해결하는 방식을 선택해서 서비스에 최적화된 구조를 갖췄습니다. 더 큰 사이즈의 모델로만 가능했던 데스크를 더 작은 모델에서 가능하게 해서 더 빠르고 효율적으로 유사한 성능을 발휘하도록 합니다.”

*펑션콜(Fuction Call): AI 언어모델이 자체적으로 수행할 수 없는 동작을 지시하거나 사전에 학습하지 않은 정보를 실시간 정보를 받아올 수 있도록 언어모델과 API 등의 외부 도구를 연결하는 기술

*RAG(Retrieval-Augmented Generation): 검색 증강 생성 기술. AI 언어모델의 응답을 최적화해 응답하기 전 외부 데이터를 추가로 참조하게 해 답변의 정확도를 높이는 기술을 뜻함.

‘평균 1.6초 답변 뚝딱’ 보는 AI로도 발전

카카오가 보유한 멀티모달 언어모델은 총 3가지다. 이날 세션에서는 텍스트와 오디오, 비전 데이터를 이해하는 모델을 넘어 ‘옴니(Omni)’ 형태로 진화중인 ‘카나나(Kanana)-o’ 모델을 중심으로 소개했다.

Kanana-o는 음성인식, 텍스트, 음성합성 등의 모델을 각각의 필요에 따라 모듈식으로 결합하여 사용했던 기존의 구조에서 벗어나, 여러 모달리티의 데이터를 통합적으로 처리하는 형태로 개발됐다. 다양한 형태의 데이터를 동시에 이해해 빠르게 결과를 생성하는 구조를 갖춰, 텍스트와 오디오를 함께 생성하며 어떤 질문을 하던 평균 1.6초의 속도로 빠른 답변을 출력해준다. 이용자와 자연스럽게 상호작용하는 시연 영상을 공개하기도 했다. 카메라 기능으로도 확장해 궁금한 사물을 비추고 실시간 대화하는 형태로도 발전시킨다. 다양한 서비스 구현을 위해서다.

해당 모델은 이미지 이해 성능 평가 시 자체 구축한 한국어와 한국 문화에 특화된 한국형 벤치마크에서 글로벌 모델 대비 높은 성능을 기록했고, 음성 성능 평가에서는 근소한 성능 우위를, SQA(Spoken Question Answering) 벤치마크에서는 월등히 높은 정확도를 보였다는 설명이다. 향후 이미지와 오디오뿐만 아니라, 영상 데이터를 이해하고 이미지와 영상도 생성할 수 있는 통합 멀티모달 언어모델 구조로 진화를 예고했다.

영상 생성도 마우스 조작으로…’키네마’ 모델 개발 중

이미지와 영상 생성이 가능한 카나나의 비주얼 생성 모델 2종도 공유했다. 이미지 생성모델 ‘콜라지(Kollage) by kanana’와 현재 개발 중인 동영상 생성모델 ‘키네마(Kinema) by kanana’ 중 동영상 생성모델의 구조에 대해 설명했다.

카카오는 키네마 모델을 텍스트 입력부터 이미지 그리고 개인 프로필 사진까지 다양한 입력을 처리하는 형태로 개발 중이다. 입력된 이미지를 바탕으로 단순히 영상을 생성하는 것을 넘어, 간단한 마우스 조작만으로 카메라와 캐릭터의 움직임을 쉽게 제어할 수 있게 되고, 이를 통해 풍부하고 다채로운 비디오 콘텐츠를 제작할 수 있다고 강조했다.

김 성과리더는 “기술의 가치는 서비스로 연결돼 이용자의 문제를 직접적으로 해결해주고, 실질적 가치를 제공해주는 실용적인 서비스로 구현돼야 빛을 발한다고 생각한다”며 “글로벌 경쟁력을 확보한 카나나 모델을 바탕으로 카카오 AI 서비스 적용뿐만 아니라 내부적으로 크루들의 생산성을 높이기 위한 AI 네이티브 컴퍼니를 만들어가는 기반을 확대하겠다”고 말했다.

글. 바이라인네트워크

<이대호 기자>ldhdd@byline.network