[인터뷰] 음원 분리의 끝판 왕 되겠다, 가우디오랩

2024-10-14

음향, 한 놈만 패는 회사는 드물다. 가우디오랩은, 그래서 어딘지 좀 덕후같은 구석이 있는 회사다. 임직원이 대체로 소리에 미친 사람이 모여 있는데, 개인적으로는 음향 관련해 어딘가 재미있는 소식이 나왔다 싶으면 그 회사 이름이 대체로 가우디오랩일 때가 많았다.

얼마 전에 ‘김삼순 리마스터’ 버전이 나왔을 때도, 음향 개선을 맡은 팀이 가우디오랩이라고 하더라. [관련기사: ‘내이름은 김삼순’, 리마스터링 가능하게 한 기술은?] 옛날 드라마의 음원을 분리, 음향에 ‘공간감’을 넣어서 소리를 더 실감나고, 세련되게 만들었다는 이야길 들었다. 소리가 날 것으로 추정되는 위치에서 진짜로 소리가 나는 것처럼 만들기 위해선 어떤 기술을 필요로 할까? 또 음원을 분리한다는 것이 어떤 경제적 효과를 만들어낼까? 그 방법론과 영향력을 오연호 가우디오랩 대표(=사진)에게 들어봤다.

오 대표는 “음원 분리의 끝판 왕 회사로서, 이 문제를 가우디오랩이 풀지 못하면 세상의 그 누구도 못 푼다고 생각하는, 그런 기술을 가진 회사”라고 가우디오랩을 소개하면서 “음원 분리 문제를 풀어내게 되면 수출길이 막혔던 콘텐츠를 수출할 수 있게 된다는 것부터 큰 성과”라고 강조했다.

일단, 소리를 ‘보이는 것처럼 들리게 한다는 것’이 어떤 것인지, 오 대표와의 인터뷰에 들어가기 전에 아래 영상을 맛보기로 들어보자. 가능한 이어폰을 끼고 듣는 것이 더 실감나는 청취법이라고 가우디오랩 측은 조언했다.

오디오, 어떤 부분을 개선하나?

구작을 현대로 가져왔을 때, 각 시대마다 믹스 마스터링 과정을 통해 만들어내는 음향의 유행이 다르다. 스타일 자체에서 차이가 있다. 음악의 예를 들어보면, 1960년대 70년대 음악이 어딘가 힘이 없게 느껴지는 경우가 있지 않나. 그런데 최신 음악을 들으면 훨씬 비트감 있고 악기도 더 꽉찬 기분이 들고. 이게 마스터링하는 과정에서 오는 유행의 차이다.

영상을 업스케일링하면 화질은 쨍한데 소리는 옛날 느낌이 들 수 있으니 이를 바꿔줘야 하기도 한다. 그 사이 소프트웨어 툴이 진화하기도 했고.

요즘 귀에 맞는 소리, 세련된 소리를 만든단 이야기인데

그렇다. 주파수를 표현하는 해상도의 범위를 더 넓혀, 극강의 고음질을 추구하는 사람들에게 가치를 주는 것도 업스케일링이지만 사실은 김삼순이 있던 그 시대에도 오디오는 사람 귀로 들을 수 있는 모든 주파수를 이미 포함하고 있었다. 그래서 지금은 오디오의 해상도를 높이는 것도 하지만, 앞서 말한 것처럼 오히려 믹싱을 요즘 풍으로 바꿔주는 것이 더 중요한 가치일 수 있다. 그 대표적인 것 중 하나가 공간음향 같은 것을 적용해보는 일이다.

공간음향의 예를 들어달라

입체 음향과 같은 개념이다. 예전에는 모든 소리가 화면 중앙에서 나왔다. 그런데 공간 음향을 적용하면, 예를 들어 문을 닫는 소리는 화면 저 뒤에서 들리고, 새가 지저귀면 하늘 위, 즉 화면 상단에서 소리가 난다. 이런 식으로 소리의 공간 배치를 다르게 함으로써 고급스러워지고 세련돼지는 효과를 볼 수 있다.

예전에, 가우디오랩의 기술 시연에서 아이돌 인터뷰 영상을 본적이 있다. 멤버 중 누가 말하는지, 서있는 위치에 따라 목소리가 그 방향에서 들려와서 신기했는데

그렇다. 그 기술이다. 동일한 기술과 공간 음향을 이제는 옛날 믹스에다가도 입힐 수 있게 된 거다.

이전에는 공간음향을 심기 위해선, 사람이 프레임마다 일일이 소리를 심어야 했나?

공간음향을 심으려면 영상 안 모든 소리의 개별 소스(대사, 배경음악, 배경음)를 하나하나 따로 가지고 있어야 했다. 그런데 제작 스튜디오를 제외하곤, 방송국이든 어디든 완성된 음향 파일만 갖고 있지 소리가 분리된 소스를 모두 갖고 있는 곳이 없다. 결국 소리를 개별로 뜯어내기 어려우니 공간 음향을 입힐 수 없는 문제가 있었다.

가우디오랩이 지금 집중하고 있고, 중요하다고 생각하는 것이, 이 ‘구작’이라고 불리는 콘텐츠들이다. 세계의 콘텐츠 99%는 음원이 분리되어 있지 않다. 하나로 뭉쳐져 있는 덩어리만 가지고 있으니 음향을 개선하기 어렵다. 이 덩어리를 분해해서 원래의 소스 하나하나로 쪼개는 과정이 일단 필요하다. 그래야 공간 음향을 입히거나 업스케일링도 할 수 있다.

또, 중요한 것이 음악 교체다. 드라마에 쓰인 옛날 음악을 최신의 것으로 바꾸는것도 있겠지만 그보다 드라마를 해외 수출할 때, 아예 그 음악 자체를 못 쓰게 되는 경우가 생긴다. 음원이 분리되어야 배경음악도 바꿀 수 있고, 더빙도 가능하다. 그리고, 이게 가능해야 콘텐츠의 수출도 가능하다.

음원 분리는 어떻게 이뤄지나

가우디오랩에 ‘지셉(GSEP)’이라는 기술이 있다. 개별 음원을 분리하는 AI 기술이다. 이 기술을 쓰면, 시끄러운 환경에서 통화할 때 자동차 소리와 같은 소음은 지우고 내 목소리만 뽑아낼 수 있다. 아이돌의 음악 링크를 입력하면 개별 보컬의 목소리나, 악기 소리, 기타 소리, 드럼 소리 같은 것을 모두 따로따로 뜯어낼 수도 있고.

이걸 구체적으로, 우리가 응용하려는 시장에서는 ‘다이얼로그(대화)’ ‘뮤직(음악)’ ‘이펙트(음향효과)’로 음원을 구분할 수 있어야 한다. 사람 목소리에 해당하는 부분을 뽑고, 음악에 해당하는 부분을 따로 뽑고, 음악도 사람 목소리도 아닌 다양햔 효과음을 따로 구분해내는 거다. 문 닫는 소리, 화면 전환에 쓰이는 효과음 같은 것들을 다 구분해내야 우리가 원하는대로 작업을 할 수 있게 되기 때문이다.

이런 구분은 AI가 할 텐데. 어떻게 학습을 시켰나?

엔진에 다이얼로그와 이펙트, 뮤직을 구분해서 넣으면 나중에 AI가 이들을 구분해 분리할 수 있게 된다. 엔진의 성능을 높이기 위해선 데이터를 많이 갖고 있는 것이 중요한 문제가 된다.

구분되어 있는 소리 데이터는 어떻게 확보를 했나?

가우디오랩이 원래 오디오를 했던 회사이다보니 관련한 데이터를 애초에 많이 갖고 있기도 했다. 또, 3년 전에 웨이브랩이라는 사운드 스튜디오를 자회사로 인수했다. 올드보이에서부터 시작해, 20년 넘게 우리나라에서 200편이 넘는 영화의 사운드를 제작해온 메이저 스튜디오다.

스튜디오를 확보하고 있다는 의미는, 방송국에는 없는 ‘다이얼로그’ ‘뮤직’ ‘이펙트’로 분리된 음원을 다 가지고 있다는 뜻이다. 우리에게는 ‘금’과 같은 데이터가 된다. 예전의 스튜디오에선 별 의미 없던 원재료였을지라도 지금 우리에게는 굉장히 중요한 데이터가 되고 있다. 이걸 모아주는 게 소리 데이터를 확보하는 한 축이다.

그 다음으로, AI 학습에서 많이 사용하는 용어인데 ‘어그멘테이션(Augmentation,데이터 증강이라는 뜻으로 기존의 데이터의 정보량을 보존한 상태로 노이즈를 주는 방식)’이라는 과정을 통해 하나의 문닫는 소리를 100만가지 문 닫는 소리로 만들어낼 수 있다. 예를 들어, 똑같이 문을 닫는 소리라고 하더라도 큰 방에서 문 닫는 소리, 저 멀리에서 닫는 소리 등 공간에 따라 소리가 달라질 수 있지 않나. 우리가 가진 기술로 데이터를 증폭, 시뮬레이션을 해서 하나의 소리를 여러가지 소리로 만들어낼 수 있는 거다. 같은 사이즈의 데이터를 훨씬 다양하게 만들어서 소리 분리를 위한 학습 데이터로 사용할 수 있게 했다.

가우디오랩은 생성AI로 오디오도 만들지 않나. 그런 기술로 데이터 학습 때도 쓰겠지만, 새로운 콘텐츠에 오디오를입힐 때도 활용할 것 같은데

굉장히 잘 부합한다. 그래서 생성형AI로 효과음을 만들수 있으므로, 과거 녹음된 소리, 예를 들어 종소리가 좀 상태가 별로라면 그 소리를 확실히 세련된 종소리로 생성형AI로 만들어서 바꿔줄 수 있는 것을 이미 준비해놓고 있다. 이런 것을 수용할 수 있는 과정을 쌓아나가고 있다.

지금까지 이런 것들이 적용되지 못한 이유 중 하나가, 결국 (정확한 타이밍에 종소리를 맞춰 넣는 것을) 사람이 해야 했기 때문이다. 그렇게 되면 일이 별로 생산적이지 못하다. 자동으로 해줄 수 있는 데까지 고도화 해보자는 것이 우리가 계속해 연구하는 내용이다.

어렸을 때 ‘주말의 명화’를 보면 더빙이 되어 있던데. 헐리우드 영화는 수출을 전제로 했기 때문에 음원 소스를 분리해서 갖고 있는 반면, 한국 콘텐츠는 수출을 전제하지 않기 때문에 덩어리 파일만 있는 건가?

그렇다. 드라마를 해외로 수출하려면 영상에 나오는 노래 자체를 교체해야 하는 수가 생긴다. 예를 들어서 김삼순 같은 경우도 1편에 레이 찰스의 노래가 나오는데, 국내 방송에서는 저작권을 위반하지 않지만 해외로 수출할 때는 로열티를 새로 내야 한다. 수출로 버는 돈보다 로열티가 더 비싼 경우가 생긴다. 음원이 분리돼야 이럴 때 OST를 교체해서 내보낼 수 있다.

또, 이전에는 분리되어 있는 음원이 있다고 하더라도 교체할 음악을 사람이 일일히 (기억에 의존해) 적절한 음악을 고르고 입히는 작업을 해야 했다. 그런데 지금은 AI 솔루션이 적절한 음원을 빨리 찾아 입히는 작업을 해내기 때문에 시간과 비용이 적게 든다.

AI 솔루션을 쓰면 시간과 비용이 얼마나 절약되나?

수출길이 막혔던 콘텐츠가 수출된다는 것 자체가 우선 있다. 불가능한 일을 AI 기술이 하게 해주는 거다. 사람이 적절한 음원을 찾아 교체할 때도 대략 3주 걸리던 일을 5분만에 해결할 수 있을 정도로 시간이 단축된다.

저작권 문제 뿐만 아니라, 현지화에 맞는 음악이나 소리를 입히는 데도 유용할 것 같은데

그게 우리가 보는 다음 스텝이다. 범용 음악 하나를 넣는 것이 아니라, 인도에 갔을 때 현지에 맞는 음악을 넣으면 더 잘 먹힐 거다. 현지화가 얼마든지 가능해진다는 장점이 생긴다.

더빙도 마찬가지다. 문맹률이 높은 나라들이 있는데, 이런 곳에는 자막으로만 만들어서 수출할 수 없다. 더빙을 해야 하는데, 그 역시 기존 다이얼로그가 없어야(다이얼로그를 음원에서 분리할 수 있어야) 더빙을 넣을 수 있다. 예를 들어, 김삼순을 중동이든 남미든 해외로 수출하고 싶어도 기존에는 방법이 없었는데 지금은 AI 기술 덕분에 아주 저렴한 비용으로 음원 교체와 더빙을 가능하게 한 것이니, 시장을 확 늘릴 수 있는 효과가 생겼다는 것이 핵심이다.

그렇다면 이 기술이 과거 콘텐츠를 개선하는 것 외에 나중에는 콘텐츠 제작의 후작업에도 쓰일 확률이 높겠다

그렇다. 해외 수출을 위한 과정을 재제작이라고 하는데, 이게 실제 가우디오랩에서 제일 왕성하게 하고 있는 비즈니스 중 하나인 셈이다. 이 재제작을 조금 더 고도화한 것이 현지화다. 그리고 한 단계 더 나아가 제작 단계로 올라가고자 하는 게 지금 우리가 한참 하려고 준비하는 일이다. 영상하고 대사는 이미 있으니까, 우리가 그에 맞는 배경음악을 처음부터 아예 만들어줄 수도 있겠다고 생각한다.

아예 콘텐츠를 제작하는 단계부터 음악감독이 음악을 고르거나 만드는 게 아니라, AI 기술을 이용해서 적절한 음악을 추천해주거나 아예 믹스까지 해주는 것까지 가능하겠다는 생각이 들어 연구를 하고 있다.

AI 기술이 발전하면 가우디오랩에 좋기도 하지만, 반대로 이런 기술이 파운데이션 모델에 들어가서 보편화되다 보면 대중이 더 쉽게 쓸 수 있게 될텐데. 그럼 오히려 가우디오랩에 위협이 되지 않겠나?

그래서 우리가 일찌감치 방향을 잡은 것이 ‘작은 연못의 큰 물고기 전략’이다. 일단 빅테크들이 덤벼서 들어오는 시장에서 우리가 경쟁하려면, 그건 전혀 경쟁력이 없다. 말씀하신 대로 파운데이션 모델 같은 것들 때문에 우리가 기초 연구는 하지 않아도, 그 기초 연구로 만들어진 산출물은 우리가 가져와서 쓸 수 있다.

예를 들어서, 수출용 재제작 시장이라든지 같은 시장에선 ‘악마는 디테일에 있다’는 말이 맞다. 큰 틀에서 보면 음성과 음악, 효과음이 잘 분리될 수 있지만 디테일로 들어가보면 이상한 케이스가 굉장히 많이 생긴다. 예를 들면 기침 소리는 다이알로그로 가는 게 맞는지, 효과음으로 가는 게 맞는지, 이런 질문은 상당히 철학적이다. ‘뾰로롱’ 소리 역시 효과음으로 봐야 할 지, 음악으로 봐야 할 지, 해석이 달라질 수 있다. 이걸 음악이라고 생각하고 교체해버리면 원작에서의 작품 의도가 달라질 수도 있고.

이런 디테일을 잡아가는 모델이라는 것이, 90점~92점까지는 만들어지는데 나머지 8점을 못 채우면 결국 상용화가 안 되는 문제에 봉착한다. 그런 부분에 대한 고도화가 결국 시장에서 어려운 부분인데, 그런 부분을 우리가 하나씩 풀어나가면 그 자체가 진입장벽이 된다고 본다.

현재 기술 개발이나 비즈니스 모델에 대해 고민하는 것이 있다면?

오늘 방송 시장에 대해 더 많은 이야기를 했지만, 같은 맥락에서 ‘작은 연못 큰 물고기’ 역할을 하는 곳 중 하나가 노래방 시장이다. 노래방도 똑같이 악기 분리를 하는데, 음성을 분리해 없애면 반주가 되는 거다. 지금 우리 스튜다오에서 사용하는 엔진을 쓰면 90% 정도의 곡은 웬만큼 다 잘 된다. 그런데 10%의 곡들 때문에 상용화하기에 아쉽다. 이 시장을 더 파고들려 한다. 설마 애플이나 구글이 이 시장에 들어오겠나? 그렇진 않을 것 같다라고 생각하는 영역인 거다.

노래방은 정말 생각 못했는데

그런 영역에서 가우디오랩이 지금 플레이를 하고 있는 거다. 다행히 일본의 굉장히 유력한 노래방 사업자랑 협업이 됐다. 우리가 시장을 새로 개척한다기 보다, 시장은 그분들이 만들어 나가고, 우리는 거기에 기술을 공급하는 형태로 협업하고 있다.

지금의 가우디오랩을 한 마디로 정의한다면?

음원분리의 끝판 왕 회사로서, 이 문제를 가우디오랩이 풀지 못하면 세상의 그 누구도 못 푼다고 생각하는, 그런 기술을 가진 회사다. 이 기술이 쓰일 수 있는 가장 가치 있는 시장에서 비용 절감을 이뤄내는 플레이를 하고 있는 AI 오디오 기술 회사, 이게 ‘키’일 것 같다.

글. 바이라인네트워크

<남혜현 기자> smilla@byline.network

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.