구글은 TPU를 포기하지 않는다

2025-01-16

구글의 자체 머신러닝 전용 프로세서 ‘텐서처리장치(TPU)’는 2015년부터 구글 데이터센터의 머신러닝, 딥러닝 워크로드 개발과 운영에 활용된 이래 2025년 현재 6세대에 이르렀다. AI 패러다임이 대형언어모델(LLM)로 넘어간 뒤 엔비디아 GPU의 초강세 속에 주요 퍼블릭 클라우드 서비스 제공업체는 엔비디아 종속에서 벗어날 목적으로 자체 AI 가속기 개발에 열을 올리고 있는데, 그 선두에 구글이 서 있다.

구글의 TPU는 행렬 곱셉 연산을 위해 설계된 AI 가속기다. 구글이 설계하고, 브로드컴에서 생산한다. TPU는 알파고 이후 2010년대 머신러닝과 딥러닝 분야의 표준 프레임워크로 자리잡았던 텐서플로우와 함께 기업의 AI 환경에서 강력한 무기로 성장할 것으로 기대됐다. 그러나 일반 기업의 TPU 접근 경로가 경쟁사 대비 작은 시장점유율을 가진 구글클라우드로 제한돼 눈부신 성장을 이루진 못하고 있다.

여러 고객사례가 발굴되고 있지만, TPU의 가장 큰 사용자는 여전히 구글이다. 구글 검색, 구글 포토, 구글 지도 등의 서비스와, 작년 노벨상을 수상한 알파폴드 2 등이 TPU로 운영된다. 작년말 일반에 공개된 6세대 TPU인 ‘TPU v6(트릴리움)’은 제미나이 2.0의 학습과 추론에 활용됐다.

TPU v6는 현재 구글클라우드에서 이용 가능하다. 그밖에 TPU를 외부에서 이용하는 방법은 없다. 구글 코랩과 캐글(Kaggle)에서 이용가능한 TPU는 예전 세대다.

구글이 TPU를 개발하게 된 건 2015년 구글 검색에 음성 인식 기능을 도입하던 시기라고 한다.

16일 구글클라우드코리아에서 온라인으로 진행한 국내 미디어 대상 브리핑에서 모한 피치카 구글 클라우드 그룹 프로덕트 매니저는 “당시 제프 딘 구글 최고과학자는 만약 1억 사용자가 하루에 3분 동안만 새롭게 제공되는 음성 기능을 사용하면 얼마나 많은 연산 능력이 필요할까 계산했다”며 “당시 데이터센터에 배치된 연산 용량을 2배로 늘려야 한다는 게 밝혀졌고, 더 나은 방법으로 최초의 AI 전용 칩인 TPU v1이 탄생했다”고 말했다.

그는 “이 칩은 구글 내부에서 추론용으로 활용됐고, TPU는 갈수록 더욱 강력해지고 더 효율적으로 발전했다”며 “TPU v2는 2018년 11.5 페타플롭스의 연산 능력을 갖추게 됐고, 업계 최초로 액체 냉각 방식을 도입한 TPU v3는 이전 세대보다 8배 더 뛰어난 성능을 냈다”고 설명했다.

이어 “4세대 제품은 노트북 1000만대를 합친 수준인 1엑사플롭스 이상의 연산 능력을 제공했고, 5세대에서 비용 최적화와 효율성을 위해 설계된 v5e와 성능에 최적화된 v5p 버전을 선보였다”며 “최신의 6세대 제품은 역대 가장 강력한 TPU로 칩당 연산 성능을 4.7배 높이고 단일 POD에 최대 256개 칩을 탑재하게 됐다”고 덧붙였다.

아마존웹서비스(AWS)나 마이크로소프트의 AI 가속기는 하드웨어 공급망 최적화 성격을 갖는다. 내부 서비스 개발에도 활용하지만, 어디까지나 클라우드 고객의 AI 수요를 원활히 소화하고 GPU 운영비용을 절감하는 목적이 우선이다.

구글이 TPU 개발의 가장 큰 목적은 내부 AI 개발에 활용할 수 있는 전용 하드웨어 확보다. 사내의 여러 머신러닝 모델을 가장 빠르게 학습시키고, 프로덕션 환경으로 옮길 수 있는 하드웨어를 원했던 것이다. 자체 개발한 가속기를 보유하면, AI 모델의 기반 소프트웨어 스택을 하드웨어와 함께 최적화할 수 있다. TPU 초창기에 구글의 머신러닝 프레임워크 ‘텐서플로우’는 GPU를 지원하지 않았다.

이런 전략은 지금도 유효하다. 구글은 하드웨어와 소프트웨어 공동 설계를 통해 Palm이든 제미나이든 내부에서 개발되는 LLM의 성능을 극대화하는데 초점을 맞추고 있다. 오늘날 생성형 AI의 혁신 속도는 너무나 빠르다. AI 모델을 뒷받침하는 하드웨어를 안정적으로 확보할 수 있다면 경쟁 우위를 점하기 유리하다. 그 과정에서 엔비디아 GPU 의존을 줄이고 비용 효율성을 확보하는 건 덤이다. 하드웨어부터 인프라 소프트웨어, 애플리케이션에 이르는 AI 수직계열화는 오픈AI의 일격에 주춤했던 구글이 단시간에 전열을 정비하고 역전타를 날리는 근원적 힘이다.

모한 피치카 매니저는 “구글클라우드는 10년 간 AI 인프라를 선도해 왔으며, AI 하이퍼컴퓨터라는 통합 슈퍼컴퓨팅 아키텍처를 완성했다”며 “AI 애플리케이션을 구축하고 배포하는 데 필요한 모든 것을 원스톱 형태로써 제공을 하는 AI 하이퍼컴퓨터를 통해 엔드투엔드 아키텍처를 제공한다”고 말했다.

구글클라우드의 AI 하이퍼컴퓨터는 3단계 계층으로 구성된다. 맨 아래 계층인 하드웨어는 TPU, GPU, CPU, 네트워킹, 스토리지 등이다. 중간 계층은 JAX, 텐서플로우, 파이토치 등의 주요 프레임워크, 다양한 오픈소스 소프트웨어, 자동 확장을 위한 구글 쿠버네티스 엔진 등이 있다. 그리고 최상위 계층에 동적 작업량 스케줄러 도구를 포함하는 다양한 소비 모델이 있다.

피치카 매니저는 “비용을 절감하면서도 활용도와 용량을 극대화할 수 있게 지원한다”며 “종합적으로 보면 AI 하이퍼컴퓨터는 AI 인프라의 모든 핵심 구성 요소를 통합하도록 설계된 강력한 시스템으로, 이 모든 구성 요소들이 조화롭게 작동할 때 진정한 마법이 일어난다”고 강조했다.

제미나이를 비롯해 오늘날 LLM과 멀티모달 모델은 수십 수백억, 수천억개에 이르는 대규모 매개변수룰 사용한다. 그 덕분에 모델의 힘이 강력한 것이지만, 그만큼 하드웨어도 초고집적도의 구성을 하게 돼 복잡해진다. 매개변수 규모의 확장을 지원하기 위해 여러 가속기를 묶어내면서도 선형적인 성능 증가를 보여야 한다. 가속기와 가속기 간 네트워킹 성능이 기가급을 넘어 페타급으로 나아가게 되는 이유다. 소프트웨어적으로 모델의 연산 작업을 여러 가속기로 병렬 배치하는데, 하드웨어 자원 묶음의 할당을 최적화하는 것도 중요하다.

트릴리움 TPU의 경우 방대한 연산 능력과 공동 설계된 소프트웨어 최적화를 거쳐 전보다 높은 성능을 낸다. 트릴리움은 이전 세대인 클라우드 TPU v5e보다 라마(Llama-2-70b) 및 GPT(gpt3-175b)와 같은 고밀도 LLM을 최대 4배 더 빠르게 훈련할 수 있다. 학습 성능은 4배 이상 향상되고, 추론 처리량은 최대 3배 증가한다. 에터지 효율성은 67% 향상됐고, 칩 당 최대 컴퓨팅 성능은 4.7배 향상됐으며, 고대역폭 메모리(HBM) 용량은 2배 증가했다. 인터칩 인터커넥트(ICI) 대역폭도 2배 증가했고, 단일 주피터(Jupiter) 네트워크 패브릭에 10만개의 트릴리움 칩을 탑재할 수 있다. 달러당 학습 성능은 최대 2.5배 향상되고, 추론 성능은 최대 1.4배 향상된다.

TPU는 지금까지 오는 과정에서 시행착오도 겪었다. 구글은 내부에서만 사용하던 TPU를2018년부터 구글클라우드로 판매하기 시작했고, 같은해 ‘엣지 TPU’란 사물인터넷(IoT)용 하드웨어도 판매하기 시작했다. 저사양 엣지 디바이스에 탑재돼 딥러닝 모델을 빠르게 처리할 수 있게 고안한 제품이었다. 그러나 엣지 TPU는 중국산 저가 제품의 홍수에 밀려 사실상 폐기됐다.

이후 TPU의 초점은 구글 내부 서비스 개발과 구글클라우드 고객 판매로 재정렬됐다.

구글이 구글클라우드를 통한 일반 고객에게 TPU를 판매하는데 힘을 주게 된 건 아이러니하게도 엔비디아 GPU와 트랜스포머 아키텍처의 급부상이다. 한때 AI 개발의 표준으로 자리잡았던 텐서플로우가 메타의 ‘파이토치’에 역전당한 계기가 엔비디아 GPU를 LLM 학습에 활용하려 했던 사용자의 확대였던 것이다. 구글은 뒤늦게 텐서플로우 GPU 지원을 시작했고, 머신러닝 컴파일러인 XLA를 통해 파이토치에서도 TPU를 활용할 수 있게 했다. 이는 자연스럽게 TPU에 외부 사용자를 유입하는 경로로 작용하고 있다.

16일 브리핑에서 모한 피치카 매니저는 다양한 외부 고객의 TPU 활용 사례를 제시했다. 그는 “대기업부터 오늘날 생성형 AI 유니콘 기업의 90%에 이르기까지 구글클라우드를 통해 TPU와 AI 하이퍼컴퓨터 아키텍처를 활용을 하고 있다”며 “제약회사인 바이엘은 신약 개발을 가속화하는데 TPU를 활용중이고, 딥지노믹스는 불치병 치료방법을 찾아내는 고유 파운데이션 모델의 활성화를 위해 TPU를 활용하고 있다”고 말했다.

그는 “그밖에 미드저니, A21랩, 앤트로픽 등이 LLM 훈련과 제공에 TPU를 활용하고 있다”고 덧붙였다.

한국에선 카카오의 ‘카나나’가 TPU를 활용한 사례로 소개됐다. 카카오가 작년 10월 공개한 통합 AI 브랜드 ‘카나나’는 영어와 한국어를 함께 지원하기 위해 LLM 학습에 쓸 대규모 컴퓨팅 자원을 필요로 했다. 초기 GPU로 개발되던 카나나는 더 적은 자원으로 모델의 성능을 빠르게 높이기 위해 구글 클라우드 TPU를 도입했고, 오픈 모델과 TPU 트릴리움을 통해 높은 수준으로 한국어에 대응할 수 있는 모델을 빠르게 확보했다. 카카오는 TPU 3세대부터 사용했으며, 트릴리움을 통해 본격적으로 효과를 보고 있다고 한다.

구글클라우드에 따르면, 카카오가 학습 과정에서 많은 컴퓨팅 자원이 필요했던 것은 모델의 규모를 늘리면서 정확도를 높이기 위해서였다. 카나나의 LLM은 동일한 레이어를 계속 쌓아 프리 트레이닝을 하면서 적은 컴퓨팅 자원으로 모델 크기를 키우는 방식인데, TPU는 이에 필요한 성능을 자연스럽게 뽑아냈다.

피치카 매니저는 “TPU의 강점 중 하나는 구글 연구개발 조직과 구글클라우드플랫폼 조직이 하나의 체계에 포함돼 있다는 것”이라며 “구글의 리서치 조직이 진행하는 혁신 연구 최전선의 내용이 구글클라우드 고객에게 곧바로 제공될 수 있다는 것”이라고 밝혔다.

그는 “GPU를 비롯한 하드웨어 인프라에서만 그 역량이 그치지 않고, 소프트웨어 관련 여러 부분에서도 비롯되는 장점”이라며 “JAX의 경우가 대표적 사례이며, TPU의 멀티슬라이싱 같은 강점이 구글 내부 연구에서도 적극 활용되고 있다”고 강조했다.

글. 바이라인네트워크

<김우용 기자>yong2@byline.network

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.