[PC사랑 5월 커버스토리] 컴퓨팅 패러다임 바꾼 GPU의 모든 것

[디지털포스트(PC사랑)= 최호섭 편집위원] 요즘 컴퓨팅 업계의 가장 큰 화두는 새로운 GPU다. 새로운 GPU에 전 세계 컴퓨팅 업계가 촉각을 세우고, 그래픽카드는 웃돈을 주어도 구하기 어려울 정도다.
근래 GPU의 인기는 게이밍 시장의 성장도 큰 이유지만 게임과 전혀 관련 없는 암호화폐, 그리고 인공지능에 대한 관심이 큰 역할을 해 왔다. 지난 10여년 동안 암호화폐와 인공지능은 상대적으로 저렴한 GPU를 통해 이례 없는 성장을 기록했고, 또 그 결과물로 세상을 바꾸어 놓았지만 정작 게이머들은 GPU를 구하지 못해 쩔쩔매는 상황이 이어지고 있다.
돌아보면 최근의 IT 이슈는 대부분 이 GPU로 연결되고 있다. 엔비디아와 AMD는 이례없는 호황을 누리고, 단순 PC 부품을 만드는 기업이 아닌 인공지능과 미래를 이끄는 트렌드 리더로 자리매김하고 있다. 과연 GPU는 어떤 능력을 갖고 있기에 IT 시장의 뜨거운 주제가 되었을까?
지난 2014년을 기점으로 비트코인의 가능성이 점쳐지기 시작했다. 단순한 미래 가능성을 넘어 당장의 가치가 하늘 높은 줄 모르고 치솟으면서 전 세계적으로 암호화폐 채굴 붐이 일었다. GPU와 그래픽카드는 막대한 전력 소비에 대한 부담에도 그 이상의 금전적 효과를 만들어주었다. 이 때문에 PC시장 뿐 아니라 전력 공급, 더 나아가 환경 파괴까지 우려를 사기도 했지만 암호화폐 열풍은 쉽게 가라앉지 않았다.
암호화폐의 뼈대가 되는 블록체인은 암호화된 블록들을 정밀하게 연결하는 기술이다. 모든 블록은 일정 규칙에 따라 블록체인 네트워크를 구성하게 되는데, 서로 연결되는 암호를 찾으면서 확장을 이어간다. 그 과정은 일종의 수학 문제를 푸는 것인데, 어떤 공식이 아니라 무작위로 답을 넣어서 결과가 맞는지 확인하는 일을 반복한다.
GPU는 하나의 칩 안에 여러 역할을 하는 프로세서 코어들이 잔뜩 들어가 있다. 초기에는 몇 개의 파이프라인이 묶이는 식이었지만 GPU의 역할에 따라서 세부 코어들의 역할이 정리되어 왔고, 최근 나오는 GPU에는 수 천 개의 셰이더 처리 코어가 중심을 이루고 있다.
이 셰이더 코어는 원래 게임 내에서 3D로 그려지는 사물의 좌표를 찍는 역할을 한다. 실질적으로 우리가 게임 속에서 보는 캐릭터나 풍경, 사물 등의 덩어리를 구성하는 것이다. 게임 해상도가 높아지고, 실제처럼 매끄러운 표면을 만들기 위해서는 수없이 많은 폴리곤을 만들어야 하고, 관절을 비롯한 물체들의 움직임을 지속적으로 계산해서 뿌려주어야 한다. 이를 초당 수 십 번씩 모니터의 주사율에 맞춰서 그려내는 것이 GPU의 가장 큰 역할이다.

이를 위해서 GPU는 셰이더 코어의 수를 늘려서 동시에 많은 연산을 하도록 만들었다. 엔비디아는 셰이더 코어를 일반 컴퓨팅으로 확장할 수 있도록 개발 환경을 열었고, GPU에도 여러 가지 명령어를 처리할 수 있도록 구성했다. 기본 프레임워크를 CUDA라고 부르고 셰이더 코어의 역할을 확장해 CUDA 코어라는 이름을 붙이기도 했다. AMD는 GPGPU라는 이름으로 CUDA와 비슷한 컴퓨팅 플랫폼을 내놓았고, 이를 발전시켜 ROCm이라는 기술로 발전시키고 있다.
이 코어들은 연산 하나하나의 속도를 높이는 대신 한 번에 많은 연산을 통째로 처리하는 것이 핵심이다. 복잡한 미적분 문제 한 두 개를 푸는 데에는 수학을 전공하는 대학생이 빠르고 정확하겠지만 덧셈, 뺄셈 문제 1천개를 푸는 데에는 초등학생 100명이 힘을 모으는 것이 비교할 수 없을 만큼 빠른 것과 같은 이치다.

현재 데이터센터에서 가장 많이 쓰이는 엔비디아 H100에는 1만4천512개의 CUDA 코어가 들어가 있고, 지포스 RTX5090에도 2만1천760개 코어가 들어가 있다. CPU와는 비교할 수 없이 많은 양의 연산을 동시에 처리할 수 있다. 애초 ‘게이밍’과는 전혀 다른 목적이지만 슈퍼컴퓨터와 비슷한 형태의 병렬 컴퓨팅을 작은 컴퓨터에서 구현하면서 GPU는 본격적으로 새로운 컴퓨팅 방법으로 자리를 잡는다.
인공지능에서 GPU가 주목받는 것도 이 병렬 컴퓨팅에 유리하기 때문이다. 인공지능의 역할은 AI 모델에 담긴다. 이 인공지능 모델은 하나부터 열까지 모든 것을 가르쳐야 하는 ‘학습’을 통해 생성되고, 그 안에 새로운 데이터를 넣고 모델에게 새로운 답을 얻는 ’추론’을 반복한다. GPU는 이 두 가지 일에서 모두 막중한 일을 맡는다.
특히 학습은 GPU의 비중이 매우 크다. 인공지능의 학습은 우리가 아기에게 뭔가를 가르쳐주는 것과 조금도 다르지 않다. 반복해서 정보를 입력하고, 그것이 옳다고 입력하는 것이다. 학습, 트레이닝이라는 이름이 붙은 것도 인내심을 갖고 많은 정보를 계속해서 가르쳐야 하기 때문이다. 하지만 컴퓨터는 실제로는 지능이 없기 때문에 사람처럼 다각도로 정보를 해석하는 능력이 없다. 대신 아주 많은 정보를 입력하면 그 정보가 어떤 의미를 갖는다는 것을 확률적으로 판단할 수 있게 된다.
추론은 학습으로 만들어진 모델을 바탕으로 답을 얻어내는 과정이다. 현재 챗GPT 등의 생성형AI를 비롯해 대부분의 인공지능 모델은 학습시킨 내용들의 연관 관계를 거리로 표현하는 벡터화를 통해 구성된다. 추론은 그 모델 안에서 관계를 해석해서 우리의 명령을 풀어내는 과정이다. 이 과정에서 인공지능은 모든 행동의 과정을 확률로 계산한다. 이 역시 GPU를 통해 한꺼번에 많은 연산을 처리해서 가장 확률이 높은 답을 골라낸다.
인공지능의 학습과 추론은 결국 모든 확률의 지도를 만들고 해석하는 과정이다. 이를 처리하기 위해서는 복잡한 행렬의 곱셉을 반복해야 한다. 계산의 복잡성보다는 양적으로 부담스러운 과정이다. GPU의 수 천, 수 만 개 셰이더 코어는 이 연산을 나누어서 빠르게 처리해 내기 때문에 인공지능 학습에서 두드러진 성능을 보여주게 된다.
인공지능 모델은 많은 정보를 학습할수록 정확도가 높아진다. 물론 기본 알고리즘과 모델의 설계도 중요하지만 기본적으로 학습량이 모델의 성능에 직접적으로 영향을 끼친다. 세계적인 GPU 부족도 학습량을 늘리기 위해 더 많은 컴퓨팅 파워가 필요하기 떄문이고, 올해 초 AI 업계를 뒤흔든 딥시크(DeepSeek) 역시 무역 규제로 고성능 GPU를 확보하기 어려운 중국 기업이 적은 컴퓨팅 파워로 높은 수준의 모델을 개발했다는 것이 이슈가 되었다.
특히 딥시크는 모델의 학습에 필요한 GPU 컴퓨팅 파워가 줄어들 수 있다는 가능성을 보여주면서 엔비디아를 비롯한 AI 반도체 기업들의 주가가 크게 흔들리기도 했다. GPU는 꼭 필요한 것이 사실이지만 GPU를 둔 지금의 상황이 모두에게 마냥 반갑기만 한 것은 아니다. GPU의 지속적인 공급 부족과 가격 부담, 그리고 막대한 전력 소비에 대한 환경 파괴가 지적되면서 인공지능의 가치를 돌아봐야 한다는 이야기까지 나오고 있다.
인공지능은 분명 세상을 크게 바꾸어 놓았고, GPU는 오랜 인공지능에 대한 꿈을 현실로 만들어 주었다. 그 역할에 대해서는 의심할 여지가 없지만 인공지능을 더 효율적으로 운영해 지속 가능성을 높일 수 있는 방법에 대한 고민이 필요한 시기가 다가오고 있다.

2016년 바둑으로 세상을 놀라게 했던 알파고 역시 막대한 확률 계산을 바탕으로 바둑돌을 놓는 인공지능이다. 오래 전 역사 속 한 장면이 되었지만 알파고의 기본 기술은 지금의 인공지능과 다르지 않다. 딥러닝의 기본인 몬테 카를로 기법으로 가장 확률이 높은 곳에 바둑 수를 놓는 것이다.
이를 위해 알파고는 세상에 남겨진 유명한 바둑 기보를 모두 입력해서 바둑을 배웠다. 막대한 컴퓨팅 파워를 바탕으로 바둑의 수를 넣어보고 각각의 확률을 따져본다. 주어진 시간 내에 더 많은 수를 내다 보기 위해서는 더 많은 컴퓨팅 파워가 필요했다. 이를 위해서 초기 알파고에는 CPU 1천202개, GPU 176개가 쓰였을 만큼 높은 성능을 요구했다.
하지만 딥마인드는 그 효율성을 높이고, 주어진 대국 시간 내에 더 많은 연산을 처리하기 위해 모델을 개선하는 것은 물론이고, 컴퓨팅 방법에도 변화를 주었다. 우리가 기억하는 이세돌 9단과 맞붙었던 알파고는 구글의 TPU를 통해 대국을 풀어갔다. 48개 TPU를 통해 기보를 학습하고, 결과를 추론해 바둑의 역사를 새로 쓴 셈이다.

이 TPU는 구글이 머신러닝을 위해 직접 개발한 전용 프로세서다. 현재 가장 많이 쓰이는 인공지능의 개발 프레임워크인 텐서플로(TensorFlow)에 최적화해 행렬 연산을 빠르게 처리하는 인공지능 전용 프로세서다. TPU를 바탕으로 운영되는 인공지능 모델은 전력 소비를 수 십 분의 1 수준으로 낮추면서도 훨씬 높은 성능을 낸다.
구글은 매년 이 TPU를 개선해서 현재 상용화된 TPU 트릴리움의 경우 2016년 첫 세대에 비해 약 100배 가량 높은 연산 성능을 보여준다. 또한 TPU는 전통적인 컴퓨터와 구조가 다르고, 행렬 연산을 나누어서 처리하는 데에 집중되어 있기 때문에 이를 양적으로 확장하기 쉽다. GPU의 경우 컴퓨터 한 대에 연결할 수 있는 개수가 제한되어 있고, 컴퓨터끼리 병렬로 연결하면 병목 현상이 일어나는 데에 비해 TPU는 연결하는 컴퓨터의 수에 거의 비례해서 성능을 높일 수 있다.
마이크로소프트와 메타, AWS 등 AI 시장에 뛰어든 기업들은 모두 TPU와 비슷한 형태의 전용 반도체를 개발하고 있다. 현재 인공지능의 개발 환경이 갖고 있는 컴퓨팅 파워 부족과 전력 소비 등 근본적인 문제를 해결할 방법이기 때문이다.
하지만 당장 TPU를 비롯한 전용 프로세서의 인기가 높지는 않다. 일반적인 컴퓨터가 아닌 만큼 각 개발 기업들이 운영하는 데이터센터와 클라우드를 통해 서비스가 이뤄져야 하고, 아직까지는 구글을 제외하고는 상용 서비스로 접근할 수도 없다. 무엇보다 기존 GPU와 개발 환경이 달라서 데이터 사이언티스트나 AI 연구원들이 이제까지와 전혀 다른 방식을 새로 익혀야 한다. 당장 인공지능 개발과 도입에 시간이 급한 기업들에게 당장 전환하는 것은 부담스러운 상황이다.
하지만 TPU처럼 장기적으로는 게임용 GPU와 인공지능 연산용 GPU는 구분이 될 것으로 보인다. 엔비디아도 A100을 비롯한 데이터센터용 AI GPU에 셰이더 코어 기반의 CUDA 코어 외에 별도의 텐서 코어를 더해 AI 성능을 높이고 있다. 또한 AI용 GPU와 게이밍 GPU의 구조를 달리 해서 두 시장을 분리하는 움직임을 보이고 있다.
올해 공개된 지포스 RTX 50 시리즈는 단순히 셰이더 코어의 규모를 늘리는 것 뿐 아니라 게임의 프레임을 보정하는 DLSS 같은 기술을 더해 게임에 특화된 기능을 보여준다. 게이밍 성능은 더 좋아졌지만 AI 처리에서는 이전 세대에 비해 큰 이점을 얻지 못하게 되면서 오히려 지난 세대인 RTX 40의 수요가 높아지는 흐름도 있다. 반면 RTX 50의 블랙웰 아키텍처를 통해 개발된 B200, GB200 등의 AI 컴퓨터는 압도적인 성능을 보여주면서 차별점을 보여주고 있다.
결국 인공지능 시장은 GPU의 범용성을 바탕으로 성장하고, 일정 수준 이상의 규모가 필요한 경우에는 구글의 TPU를 비롯한 전용 프로세서로 효율을 높이는 방향으로 흘러갈 것으로 보인다. 샘 올트만 오픈AI CEO는 최근 ‘챗GPT에게 사람들이 감사 인사를 하는 것만으로 수 천 만 달러의 비용이 들어간다’고 말하기도 했다. 여전히 GPU는 인공지능 기술 발전의 중심이지만 그 연산 방법에 대해서는 분명 개선이 필요하다. GPU는 그 자체로 성장을 이어갈 필요가 분명하고, 인공지능 역시 GPU 뿐 아니라 더 효율적인 연산을 할 수 있는 반도체를 통해 성장을 이어 나가야 한다. 마치 게이밍 시장이 GPU의 그래픽 가속으로 성장한 것처럼 AI 역시 새로운 전환점이 고민되어야 할 시점이다.
▶ 네이버 뉴스스탠드에서 ‘디지털포스트(PC사랑)’를 만나보세요! 구독하기 클릭!
저작권자 © 디지털포스트(PC사랑) 무단전재 및 재배포 금지