
“다음 달 열릴 예정인 카카오 개발자 행사 '이프 카카오(if kakao)'에서 새로운 멀티모달 생성형 인공지능(AI) 모델인 '카나나-o(Kanana o)'를 공개할 예정입니다.”
노병석 카카오 멀티모달 거대언어모델(LLM) 코어 리더는 전자신문과 인터뷰에서 다음 달 멀티모달 언어모델을 시연하겠다고 밝혔다. 카나나-o는 텍스트·음성·이미지를 동시에 이해하고 처리하는 멀티모달 언어모델로, 카카오는 지난 5월 성능평가 결과를 공개한 바 있다. 다음 달에는 실제 해당 모델이 어떻게 작동하며, 어떻게 활용될 수 있을지 등을 설명한다.
노 리더는 “카나나-o는 이미지와 텍스트를 다양한 입력으로 동시에 인지하고 자연스러운 텍스트나 음성을 생성할 수 있다”면서 “구체적인 적용 시나리오나 활용 방식을 다음 달 공개할 예정이다”고 말했다.
카나나-o는 카카오가 개발한 생성형 AI 중에서도 뛰어난 성능으로 주목받은 모델이다. 텍스트와 음성으로 출력할 수 있는 모델은 국내 기업이 공개한 모델 중 카나나-o가 최초다. 특히 한국어·영어 벤치마크에서 GPT-4o, 제미나이 1.5 프로 등 글로벌 최고 모델과 유사한 수준 성능을 기록했다.
카카오는 카나나-o를 개발하기 위해 데이터 확보부터 모델 개발까지 다양한 단계를 거쳐야 했다. 우선 양질의 음성 데이터부터 확보하는 것이 관건이었다. 저작권을 피해 이용할 수 있는 음성 데이터가 거의 없었기 때문이다.
노 리더는 “카카오도 과거 음성 합성 기술을 연구했지만 톤 변화가 거의 없는 모노톤 음성이었다”면서 “감정 표현이 풍부한 음성 데이터를 만들기 위해서 전문 성우나 배우를 직접 섭외해 녹음하는 방식으로 하나하나 확보했다”고 말했다.
효율적으로 멀티모달 모델을 개발하는 것에도 집중했다. 이미지 처리에 특화된 모델 '카나나-v'와 오디오 이해·생성에 특화된 '카나나-a' 모델을 통합하는 '모델 병합' 기술을 활용해 단기간에 카나나-o를 개발할 수 있었다. 이렇게 개발된 카나나-o는 음성 감정 인식 기술로 사용자의 억양과 감정까지 분석해 자연스럽게 대화할 수 있는 모델로 탈바꿈했다.
노 리더는 카카오의 AI 연구 조직에서 멀티모달 언어모델 중 코어 부분을 총괄하고 있다. 2020년 카카오브레인에 입사했다. 2022년에는 카카오브레인이 신설한 멀티모달 연구팀에 합류했다. 이미지와 대규모 언어모델을 연결할 수 있는 멀티모달 언어모델 '허니비' 개발을 주도했다.
최근 카카오의 멀티모달 기술력에 대한 업계의 주목도가 부쩍 높아졌다. 카카오는 지난달 경량 멀티모달 언어모델인 '카나나-1.5-v-3b'를 오픈소스로 공개하며 멀티모달 기술력을 뽐내면서다. 카나나-1.5-v-3b는 지난 5월 오픈소스로 공개한 카나나 1.5 모델을 기반으로 개발했다. 카나나 1.5는 모델 개발 처음부터 마지막 단계까지 카카오 자체 기술을 바탕으로 구축하는 '프롬 스크래치(From Scratch)' 방식으로 만들었는데, 이를 개방형 생태계에 공유한 것이다.
노 리더는 “카나나-v를 오픈 소스로 공개한 것은 단순하게 코드 배포를 넘어 기술 생태계에 기여하고 다양한 연구자들과 협업을 촉진하기 위한 전략적 선택”이라면서 “카카오가 부족한 부분을 다 테스트할 수는 없으니 함께 발전시킬 수 있는 오픈소스가 필요하다고 판단했다”고 말했다.
노 리더는 이어 “궁극적으로 카나나 모델은 텍스트 중심의 AI에서 벗어나 사람처럼 생각하고 표현하는 AI로 발전할 수 있을 것”이라고 덧붙였다.
변상근 기자 sgbyun@etnews.com