관련 기사-번역 회사 ‘플리토’가 AI 시대에 살아 남는 법
외국어가 덜 두려운 시대다. 해외 여행 다닐 때 번역 앱 하나면 의사 표현을 하는 것도, 간판과 메뉴판을 보는 것도 어렵지 않다. 더 나아가 상대방이 외국어로 말을 해도 곧바로 우리 글로 번역되어 의사소통에 도움을 받을 수 있다. 인공지능(AI)의 발전으로 실시간 음성 번역 서비스가 탄생한 덕분이다.
그러나 음성 번역 서비스에 대한 사람들의 기대감은 높지 않다. 과거 5~6년 전 번역 서비스가 그랬듯 음성 번역 서비스 또한 아직까지 성능이나 정확도가 높지 않을 것이란 인식이 지배적이다. 국내 기업 플리토는 음성 번역 서비스에 대한 사람들의 인식에 변화를 줬다.
언어 데이터, 전문 번역 서비스를 하는 플리토는 지난해 CES2025를 포함해 중동판 CES로 불리는 ‘GITEX GLOBAL 2024’, 구글 개발자 행사인 ‘구글 APAC 앱 서밋’, 컴업2024, 2024세계지식포럼 등 굵직한 국내외 유명 행사에 실시간 음성 번역 서비스를 제공했다. 플리토는 전문용어 뿐만 아니라, 특정 기업에서 사용하는 고유명사 등을 다양한 언어로 번역해내며 행사에 참여한 청중들의 이해도를 높였다.
플리토는 발화자의 음성을 약 1초 만에 글자로 번역한다. 통상 음성 인식에 약 10초 내외가 걸린다는 점에서 플리토의 번역 속도는 실시간에 가깝다. 플리토는 높은 정확도와 빠른 번역의 비결로 ‘방대한 데이터 학습’을 꼽았다. 회사는 세계 1400만명 이상의 사용자가 활동하는 모바일 앱 ‘플리토’를 서비스하고 있는데, 여기에서 생기는 음성, 글자, 이미지 등 언어 데이터만 하루에 약 50만개 이상이다. 현재 플리토는 170개국 언어를 포함해 특정 국가의 방언 데이터를 보유하고 있다.
플리토는 높아진 세계의 관심을 기회로 삼아 해외진출에 나선다. 올해 안으로, 오랫동안 준비 해온 미국 지사 설립을 마무리하면서 본격적으로 미국에 진출할 계획이다. <바이라인 네트워크>는 지난 4일 강남 삼성동에 위치한 플리토 사무실에서 이정수 플리토 대표(=사진)를 만나 실시간 음성 번역 기술에 대한 이야기를 들어봤다.
-현재 플리토가 보유하고 있는 언어 데이터의 종류는 무엇인가?
음성, 텍스트, 채팅, 이미지 등 언어에 관련된 데이터는 전부 수집한다고 보면 된다. 이미지의 경우 사진 속 글씨, 간판 등이 해당된다.
-언어 데이터는 어떻게 수집하나
전세계 사용자 1400만명 이상이 가입한 모바일 앱 ‘플리토’를 통해 언어 데이터를 축적하고 있다. 해당 플랫폼에 프로젝트를 공지하면 사용자들이 언어 데이터를 만들고 보상을 받는다. 가령, 뱅갈리어 프로젝트를 열면 인도, 파키스타, 방글라데시 국적의 사용자들이 앱에서 데이터를 만든다. 사용자들은 프로젝트에 참여 시 앱을 통해 포인트(15원)를 보상받는다.
-사용자들이 언어 데이터를 어떻게 만드나?
한 마디로 ‘말하기’ 미션으로, 앱에서 보여주는 문장을 읽으면 된다. 예를 들어, ‘경상도에 거주하는 20대 여성의 음성이 필요하다’는 프로젝트를 만들면 해당하는 사용자들이 참여할 수 있다. 앱에서 ‘대답’, ‘대화’ 등의 몇 가지 단어를 제시하면 사용자가 해당 단어를 활용해 문장을 말하면 된다. 플리토는 사용자의 음성 녹음 데이터를 보유하게 된다.
녹음 과정은 정교하다. AI가 사용자가 실제로 제시 단어를 활용해 말을 했는지 확인한다. 또 장난을 쳤는지, 욕설을 썼는지 살피고, 해당 녹음본을 다른 사용자에게 보내 맞게 녹음이 됐는지 확인 작업을 거친다. 이러한 과정을 거쳐 실제 녹음된 문장이 AI 학습에 용이한지 검증한다.
-사용자에게 주어지는 또 다른 미션은 없나
다른 사용자가 녹음한 문장의 의도나 뜻을 맞추는 미션이 있다. 예를 들어, “왜 태권도복은 색깔이 똑같을까”라는 말의 의도가 무엇인지, 가령 정보를 묻는 것인지, 제안을 하는 것인지, 감정을 표현하는 것인지 등을 선택할 수 있다. 사용자는 또 다시 포인트를 받을 수 있다. 플리토 입장에선 사용자들의 참여로 양질의 데이터를 쌓을 수 있다.
-현재 몇 개국의 언어 데이터를 보유하고 있는지
현재 170개 이상의 언어쌍을 보유하고 있다. 세부적으로 들어가면 더 많은 종류의 언어 데이터가 있다. 영어의 경우 호주, 인도, 필리핀 등 국가 별로 차이가 있어 이런 부분까지 고려하면 1000개 정도 된다.
-챗GPT 등 잘 알려진 생성형AI 대비 플리토만의 강점은 무엇인지?
챗GPT의 경우 상당히 성능이 좋지만 메이저(주요 국가) 언어에 대한 데이터 중심이다. 따라서 방언 등이 커버가 잘 안된다. 챗GPT도 학습을 위해 새로운 언어 데이터를 추가해야 하는데, 이런 측면에서 LLM 개발 업체들이 저희에게 (학습을 위한) 데이터를 요구하고 있다.
-발화자의 음성을 글자(텍스트)로 번역하는데 지연 시간은 얼마나 걸리는지?
약 1초로 사실상 실시간에 가깝다. 다른 서비스의 경우 10초에서 길면 20초까지 걸리는 것으로 안다. 이런 시간 차이가 생기는 이유는 데이터 학습의 문제다. 예를 들어, 플리토가 발화자의 음성을 클린턴, 부시, 오바마, 바이든, 해리스로 번역한 반면, 타 서비스가 해리스를 번역하지 않았다고 가정하자. 이 경우 타 서비스의 엔진이 발화자의 ‘해리스’ 발음을 인식하지 못한 것이다. 만약 해리스에 대한 발음이나 음성 등이 학습이 되어 있다면 빠르게 인식이 가능했을 것이다.
-지난해 CES2025를 비롯한 대형 행사에서 실시간 음성 번역 서비스를 했다고. 서비스 제공 계기는 어떻게 되나
작년 3월 실시간 음성 번역 데모 서비스를 내놓자마자 사람들이 저희 서비스를 좋아해줬다. 개인적인 생각으로 사용자들이 실시간 음성 번역 서비스에 대한 성능적인 기대감이 낮았던 것 같다. 실제로 AI 통역이 현실화되려면 멀었다고 생각하는 분들이 플리토 서비스를 이용한 행사에 참여하면서 “이 정도면 쓸 수 있겠다”고 생각하신 것 같다. 이때부터 서비스 제공에 대한 요청이 많이 들어왔다.
지난해 CES2025를 비롯해 중동판 CES인 ‘GITEX GLOBAL 2024’, 2024 일본 에너지 서밋, 오픈인프라 서밋 아시아2024 등에 서비스를 제공했다. 지금은 입소문으로 두바이, 사우디, 아라비아, 미국, 일본 등으로 고객사가 전세계적으로 늘었다.
-전문 행사인 만큼 전문용어 등이 많이 언급됐을 것 같은데, 어떻게 학습을 했는지
예를 들어 젠슨 황 엔비디아 대표의 연설을 실시간 음성 번역한다고 하면, 엔비디아의 IR이나 발표 자료 등을 엔진에 학습시킨다. 물론, 이러한 작업은 데이터를 잘 가공할 수 있는 능력이 필요하다.
-올해 본격적으로 해외 진출을 한다고
현재 미국 지사를 설립하고 있다. 회사 매출의 70%가 미국에서 나오는 등 미국의 관심이 상당하다. 현지 고객사에게 솔루션 등 기술을 원활하게 제공하기 위해 빠른 시일 내 델라웨어 주에 미국 지사 설립을 완료할 계획이다.
-미국 지사, 팀은 어떻게 꾸릴 계획인지
현재 미국 법인 대표는 저다. 개인적으로 외국에 오래 거주한 만큼 영어가 어렵지 않고, 지사 설립 초기에는 창업자가 직접 현지 법인 대표를 맡는 것이 시장에 신뢰감을 줄 수 있다고 생각했다.
글. 바이라인네트워크
<홍하나 기자>0626hhn@byline.network