AI 컴퓨팅 기술 분야의 선두주자인 엔비디아가 영상 검색과 요약을 위한 엔비디아 AI 블루프린트(NVIDIA AI Blueprint)의 신규 버전 얼리 액세스를 발표했다. 이 블루프린트는 개발자에게 대량의 영상과 이미지 콘텐츠를 분석할 수 있는 AI 에이전트를 구축하고 배포할 수 있는 툴을 제공해 생산성을 대폭 향상시킨다.
AI의 다음 대전환기가 눈앞에 다가왔다.
오늘날 전 세계에 배포된 15억 대 이상의 엔터프라이즈급 카메라가 연간 약 7조 시간의 영상을 생성하고 있다. 하지만 그 중 분석되는 비디오는 극히 일부에 불과하다.
산업용 카메라에서 수집된 영상 중 사람이 실시간으로 시청하는 비율은 1% 미만으로 추정되며, 이로 인해 중요한 운영상의 사고가 대부분 발견되지 않을 수 있다는 의미이다.
이는 높은 비용 소모를 야기하는데, 제조업체는 제품 품질 저하나 결함으로 인해 연간 수조 달러의 손실을 보고 있다. 예를 들어, 사람이 인지하고 분석해 조치를 취할 수 있도록 도와주는 AI 에이전트를 사용했다면 조기에 발견하거나 예측할 수 있었을 것이다.
시각 인식 기능이 내장된 대화형 AI 에이전트는 상시로 영상 분석가 역할을 수행한다. 이로써 공장을 더 효율적으로 운영하고, 작업자의 안전을 강화하며, 교통 흐름을 원활하게 유지하고, 나아가 운동선수의 경기력을 향상시키는 데 도움을 줄 수 있다.
에이전트 개발을 가속화하기 위해 엔비디아는 영상 검색과 요약을 위한 엔비디아 AI 블루프린트의 신규 버전 얼리 액세스를 발표했다. 이 블루프린트는 엔비디아 메트로폴리스(Metropolis) 플랫폼을 기반으로 구축됐다. 또한, 엔비디아 코스모스 네모트론(Cosmos Nemotron) 비전 언어 모델(Vision Language Model, VLM), 엔비디아 라마 네모트론(Llama Nemotron) 거대 언어 모델(Large Language Model, LLM), 엔비디아 네모 리트리버(NeMo Retriever)로 더욱 강화됐다. 이를 통해 새로운 블루프린트는 개발자에게 대량의 영상과 이미지 콘텐츠를 분석할 수 있는 AI 에이전트를 구축, 배포할 수 있는 툴을 제공한다.
이 블루프린트는 VLM, LLM용 엔비디아 NIM 마이크로서비스, 검색 증강 생성(retrieval-augmented generation, RAG)을 위한 고급 AI 프레임워크가 포함된 엔비디아 AI 엔터프라이즈(NVIDIA AI Enterprise) 소프트웨어 플랫폼과 통합했다. 이로써 실시간으로 시청하는 것보다 30배 빠른 일괄 영상 처리를 가능하게 한다.
블루프린트에는 연쇄 추론, 작업 계획, 도구 호출과 같은 여러 에이전틱 AI 기능이 포함된다. 이는 개발자들이 다양한 문제를 해결하기 위한 강력하고 다양한 시각적 에이전트를 효율적으로 생성할 수 있도록 지원한다.
영상 분석 기능을 갖춘 AI 에이전트를 다른 기술 세트를 가진 다른 에이전트와 결합하면 더욱 정교한 에이전틱 AI 서비스를 구현할 수 있다. 기업은 엣지에서 클라우드에 이르기까지 유연하게 AI 에이전트를 구축하고 배포할 수 있다.
영상 분석 AI 에이전트가 산업 비즈니스를 지원하는 방법
시각적 인식과 분석 기술을 갖춘 AI 에이전트는 다음과 같은 방법으로 기업의 산업 운영에 도움이 되도록 세밀하게 조정할 수 있다.
생산성 향상과 낭비 감소: 에이전트는 제품 조립과 같은 복잡한 산업 공정에서 표준 운영 절차를 준수하도록 도울 수 있다. 또한 세밀한 동작과 그 실행 순서를 주의 깊게 관찰하고 이해하도록 미세 조정될 수 있다.
공간 활용 개선을 통한 자산 관리 효율성 증대: 에이전트는 3D 부피 추정을 수행하고 다양한 카메라 스트림에 대한 이해를 중앙 집중화해 물류창고의 재고 보관을 최적화할 수 있다.
사고 보고서와 요약 자동 생성을 통한 안전성 향상: 에이전트는 방대한 양의 영상을 처리해 상황에 맞는 정보를 제공하는 사고 보고서를 요약할 수 있다. 또한, 공장에서 개인 보호 장비 규정 준수를 보장해 산업 현장에서 작업자의 안전을 개선할 수 있다.
사고와 생산 문제 예방: AI 에이전트는 창고, 공장, 공항, 교통 교차로 또는 기타 도시 환경에서 비정상적인 활동을 식별해 운영과 안전 위험을 신속하게 완화할 수 있다.
과거 사례 학습: 에이전트는 운영 영상 아카이브를 검색해 과거의 관련 정보를 찾아 문제를 해결하거나 새로운 프로세스를 만드는 데 사용할 수 있다.
스포츠, 엔터테인먼트 등을 위한 영상 분석가
영상 분석 AI 에이전트가 두각을 나타낼 수 있는 또 다른 산업은 스포츠 분야이다. 스포츠 분야는 전 세계적으로 5천억 달러 규모의 시장으로, 향후 몇 년간 수천억 달러의 성장이 예상된다.
프로와 아마추어를 막론하고 코치, 팀, 리그는 선수 분석 플랫폼과 데이터 시각화를 통해 선수의 경기력을 평가하고 향상할 뿐만 아니라, 안전을 우선시하며, 팬의 참여를 높이기 위해 영상 분석에 의존하고 있다. 이제 선수들은 시각적으로 인식하는 AI 에이전트를 통해 전례 없이 심층적인 인사이트와 개선의 기회를 얻을 수 있게 됐다.
엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 CES 개막 기조연설에서 아마추어 야구 선수의 직구 투구 기술을 프로 선수와 비교해 평가하는 AI 영상 분석 에이전트를 시연했다. 이 AI 에이전트는 젠슨 황이 샌프란시스코 자이언츠(San Francisco Giants) 야구팀에서 시구자로 나선 영상을 사용해 개선이 필요한 부분을 제안했다.
3조 달러 규모의 미디어와 엔터테인먼트 산업도 영상 분석 AI 에이전트의 혜택을 받을 수 있다. AI 에이전트는 엔비디아 미디어2(Media2) 이니셔티브를 통해 시청자 개개인의 선호도에 맞춰 더욱 스마트하고 영향력 있는 맞춤형 콘텐츠를 제작을 촉진할 것이다.
전 세계적인 채택과 이용 정보
전 세계의 파트너들이 영상 분석용 AI 에이전트 구축을 위한 블루프린트를 자체 개발자 워크플로우에 통합하고 있다. 파트너에는 액센츄어(Accenture), 센티픽(Centific), 딜로이트(Deloitte), EY, 인포시스(Infosys), 링커 비전(Linker Vision), 페가트론(Pegatron), 타타 컨설턴시 서비스(TATA Consultancy Services, TCS), 텔릿 신테리온(Telit Cinterion), 바스트(VAST) 등이 포함된다.