
메타(Meta)가 인공지능(AI) 기술에서 수익을 창출하기 위한 계획의 일환으로 음성 기능 개발에 박차를 가하고 있다. 특히 마크 저커버그 CEO는 2025년을 'AI 제품의 성패가 결정되는 해'로 지목했다. 파이낸셜타임스(FT)가 보도한 내용에 따르면, 메타는 향후 몇 주 안에 출시될 것으로 예상되는 최신 오픈소스 대규모 언어 모델인 '라마4(Llama 4)'에 향상된 음성 기능을 도입할 계획이다. 메타는 미래의 AI 에이전트가 텍스트 기반보다는 대화형이 될 것이라는 전망에 베팅하고 있다.
내부 관계자에 따르면, 메타는 특히 사용자와 음성 모델 간의 대화를 자연스러운 양방향 대화에 가깝게 만드는 데 집중하고 있다. 단순한 질문-답변 형식이 아닌, 사용자가 중간에 대화를 끊고 개입할 수 있는 방식으로 개발 중이다.
메타의 최고 제품 책임자인 크리스 콕스(Chris Cox)는 수요일 모건스탠리 기술·미디어·통신 컨퍼런스에서 라마4 계획의 일부를 공개했다. 그는 "라마4는 '옴니 모델(omni model)'이 될 것이며, 음성은 '원어민(native)'처럼 작동할 것"이라고 말했다. 또한 "음성을 텍스트로 변환하고, 텍스트를 LLM에 보내고, 텍스트로 결과를 받아 다시 음성으로 바꾸는 대신, 음성이 기본적으로 처리될 것"이라고 설명했다. 콕스는 "인터넷과 대화하고 무엇이든 물어볼 수 있다는 개념은 인터페이스 제품에 있어 아주 중요한 발전"이라며 "우리는 아직 이것이 얼마나 강력한지 이해하는 중"이라고 덧붙였다.
음성 기능 확대는 저커버그가 1.7조 달러 규모의 실리콘밸리 기업을 "AI 리더"로 만들겠다는 야심 찬 계획의 일환이다. 메타는 오픈AI, 마이크로소프트, 구글 등 경쟁사들과 함께 AI 기술의 상업화 경쟁을 펼치고 있다. 내부 관계자들에 따르면, 메타는 AI 비서인 '메타 AI(Meta AI)'에 예약 서비스나 비디오 제작과 같은 에이전트 작업을 위한 프리미엄 구독 서비스를 시험할 계획이다. 또한 AI 비서의 검색 결과에 유료 광고나 스폰서 게시물을 도입하는 방안도 검토 중이다.
올해 초 저커버그는 중급 엔지니어 수준의 코딩 및 문제 해결 능력을 갖춘 AI 엔지니어링 에이전트를 구축할 계획을 밝혔으며, 이는 "매우 큰 시장 잠재력"을 가지고 있다고 언급했다.
메타의 음성 AI 확대는 경쟁사들의 잇따른 출시와 함께 이루어지고 있다. 오픈AI는 작년 음성 모드를 출시했으며 고유한 개성을 부여하는 데 집중했다. 일론 머스크(Elon Musk)의 xAI가 만든 그록3(Grok 3)은 지난달 말 선별된 사용자들에게 음성 기능을 제공하기 시작했다. 그록 모델은 특별히 제약이 적도록 설계되었으며, 회사에 따르면 의도적으로 "부적절하고 공격적인" 방식으로 응답하는 "언힌지드 모드(unhinged mode)"를 포함하고 있다.
메타는 작년 라마2가 무해한 질문에도 응답을 거부한다는 비판을 받은 후, 라마3에서 "도덕적 훈계"가 덜한 AI 모델 버전을 공개했다. 음성 명령으로 AI 비서와 상호작용할 수 있는 기능은 최근 소비자들 사이에서 큰 인기를 끌고 있는 메타의 레이밴(Ray Bans) 스마트 안경의 주요 특징이다. 메타는 소비자들의 주요 컴퓨팅 기기로서 스마트폰을 대체할 수 있는 경량 헤드셋을 구축하는 계획을 가속화하고 있다.
한편, 메타는 최신 라마 모델이 어떤 내용을 출력할 수 있는지에 대한 안전장치(guardrails)와 이를 완화할지에 대해서도 논의하고 있다. 이러한 논의는 최근 임명된 '인공지능 차르(AI tsar)' 데이비드 삭스(David Sacks)가 미국의 AI 모델이 정치적으로 편향되거나 "깨어 있지(woke)" 않도록 보장하겠다고 경고한 가운데 이루어지고 있다.
해당 기사 원문은 링크에서 확인할 수 있다.