
14일 구글은 초경량 멀티모달 인공지능(AI) 모델 '젬마 3 270M'을 공개했다. 이 모델은 스마트폰 등 일반 사용자 기기에서도 동작할 만큼 가볍고 구글의 스마트폰 테스트에서는 배터리 0.75%만 소모하는 에너지 효율을 보였다. 구글 젬마 3 270M은 파라미터수가 적은 동시에 INT4(4비트 정수) 양자화를 사용했다. 기존 AI 모델이 주로 16비트와 32비트로 숫자를 계산했다면 4비트 정수 양자화를 통해 숫자를 표현하는 단위를 줄였다. 이를 통해 필요한 메모리와 계산량이 크게 줄고 작은 기기에서도 복잡한 AI 모델이 돌아갈 수 있게 된다. 구글은 4비트 양자화를 위한 양자화 인식 훈련(QAT) 기법을 적용했다.
지난해 엔비디아는 퀘이사(Quasar) 양자화 기법을 통해 4비트 연산만으로 16비트 연산과 비슷한 성능을 얻을 수 있는 방법론을 제시했다. 이미지 생성 실험에서 4비트 연산으로 생성된 이미지가 16비트 연산으로 생성된 이미지와 비슷한 수준의 품질을 가질 수 있다고 밝혔다. 점점 더 복잡해지는 AI 모델 해법으로 숫자를 표현하는 비트 수를 줄이려는 노력이 계속되고 있다. 예를 들어 32 비트 연산 대신 8 비트 연산을 사용하면 사용하는 메모리 용량은 크게 줄고, 처리 속도도 향상된다.
연산 비트수를 줄이려는 노력은 AI 모델이 점점 더 복잡해지며 기존 하드웨어로는 실행이 불가능한 상황을 극복할 수 있는 좋은 대안이 된다. 2024년 마이크로소프트도 파이-3 미니를 통해 4비트 연산으로 충분한 성능을 낼 수 있다고 밝혔다. 올해 오픈 소스를 공개한 비트넷에서는 1.58비트 초저비트 AI 모델을 제시했다.
올초 화제가 됐었던 딥시크 초거대언어모델(LLM)에도 비트 수를 줄이는 노력이 있었다. 기존 모델이 32비트와 16비트 연산을 주로 사용한데 비해 딥시크는 8비트 연산을 사용해 경량화 모델을 구현했다. 이를 통해 메모리 용량을 줄이고 실행 속도를 높였다. 딥시크에는 혼합 전문가(MoE) 등 다양한 기술이 적용, 경량화 모델로도 좋은 성능을 낼 수 있도록 했다.
CES 2025에서 젠슨 황 최고경영자(CEO) 발표에서 나왔듯 AI 모델 복잡성은 에이전틱 AI와 피지컬 AI로 진화하며 기하급수적으로 복잡도가 높아졌다. 이에 하드웨어 자원도 기하급수적으로 증가할 수밖에 없다. 엔비디아 블랙웰 프로세서와 딥시크의 방법론은 새로운 방향성을 제시한다. 하드웨어적 저비트 연산 지원(Blackwell 등) 저비트 고성능 양자화 방법(QAT·Quasar·AWQ·GPTQ), 저비트 기반 AI 모델(DeepSeek R1, Gemma 3 270M 등)의 3가지 축은 저비트 연산을 통한 생성형 AI 경량화 방향성이 될 전망이다.
엔비디아 블랙웰 프로세서는 4비트 연산을 지원하는 기능(NVFP4)이 탑재됐다. 엔비디아는 또 NVFP4를 지원하는 4비트 양자화 코드를 공개하기도 했다. 이후 블랙웰 4비트 연산을 사용하는 다양한 생성형AI 모델이 나오고 있는 상황이다.
지난해부터 생성형AI 시장에서는 딥시크를 비롯해 다양한 경량화 모델이 제시되고 있다. 이러한 경량화 모델에는 파라마터수를 줄이는 동시에 사용하는 비트 수를 줄이고 있다. 메타 라마3(LLaMA3)와 미스트랄 3(Mistral) 같은 대형 모델도 8비트·4비트 양자화가 적용된 버전이 배포되고 있다. 구글도 젬마3 270M 공개를 통해 앞으로 4비트 양자화 기법을 다양한 대용량 모델에 적용해 나갈 계획이다.
하드웨어의 저비트 연산 지원, 저비트 고성능 양자화 방법, 저비트 사용 AI 모델 방법론은 앞으로 에이전틱 AI와 피지컬 AI의 진화에 큰 도움이 될 전망이다. 프로세서와 메모리 사용, 전력 소모, 실행 속도 등 다양한 제약을 극복하며 복잡한 생성형 AI 진화 속도를 빠르게 할 것으로 예상된다. 국내 업계에서도 생성형 AI 모델와 응용 개발에 많은 노력을 기울여야 하는 배경이다. 관련 시장에서 우리나라 회사들의 좋은 성과를 기대한다.
정구민 국민대 전자공학부 교수 gm1004@kookmin.ac.kr