
프로즌 데이터(Frozen Data), 즉 냉장고에 얼어있는 데이터라는 말이 있다. 프로즌 데이터는 기록, 감사 및 분석 등 용도로 장기간 보존되는 데이터로서 수정, 삭제 및 추가 등을 하지 않은 채 보관을 목적으로 하는 데이터다. 프로즌 데이터는 실시간으로 업데이트되는 라이브 데이터(Live Data)와 반대되는 말이다.
필자가 모 신용평가회사 대표로 부임할 당시, 직원들은 “우리 회사야말로 신용정보업계에서 가장 많은 기업 데이터를 갖고 있지만, 냉장고 속의 데이터에 불과하다”면서 자조 섞인 말을 했다. 데이터만 많이 쌓여있지 그 데이터가 회사의 매출을 창출하는 방향으로 활용되지 않고 있다는 말이었다.
당시 대통령 직속 지역발전위원회 기획단장을 마치고 바로 이 회사에 부임했기에 “데이터가 많다”는 말에 솔깃했다. 사실 통계청의 기업 데이터는 통계수집 절차상 2년가량 지난 통계여서 시·도 및 시·군·구의 산업과 기업 실태를 적시에 파악하기 어려워 효과적인 지역 정책을 펼치는 데 어려움이 많았다.
이 데이터를 지역산업 정책에 활용할 수 있겠다는 상상 하에 금융권 데이터, 신용평가과정에서 취득한 자체 데이터에 국민연금 고용정보, 국세청 휴·폐업 정보, 특허정보, 등기정보 등 공공데이터 등을 연계하는 빅데이터를 구축해, 데이터를 활용한 신(新)상품 '지역산업 생태계 상황판(Dash Board)'을 개발했다.
인기 높은 신상품 출시로 회사 매출은 급증했고, 지자체는 관내 기업 현황, 일자리, 매출·자산 변동, 신용 변화 등을 실시간 파악해 경제위기를 조기에 탐지하고, 밸류체인 분석을 통해 선제적 위기 대응이 가능하게 됐다. 프로즌 데이터가 인간의 상상력을 만나 그 가치를 발휘하는 순간이었다.
정부는 코로나19 팬데믹 위기 속에서 일자리 창출, 디지털 경제로의 전환, 인공지능(AI) 인프라 구축, 기존 추격형 경제에서 벗어나기 위해 여러 정책을 마련했다. 데이터 기반 혁신적인 제품과 서비스 개발을 통해 '선도형 경제'로 나아가기 위한 초석을 다질 목적으로 2020년 디지털 뉴딜 정책을 발표하고, 데이터 댐(해외의 데이터 레이크) 정책을 추진했다.
데이터 댐 7대 사업의 하나로 'AI 학습용 데이터 구축'이 있다. 이 사업은 AI 서비스 개발을 위해 대규모 학습용 데이터를 구축하는 것으로 2017년부터 2025년까지 9년간 약 2조5000억원 이상 투자됐으며, 텍스트·음성·이미지·영상 등 다양한 데이터를 수집·가공·정제·품질 검증해 AI 허브(Hub)에 공개하고 있다.
이 사업은 데이터 라벨링 같은 단순 작업에서 대규모 일자리 창출, 디지털 전환 가속화 등 긍정적 측면도 있으나, '일단 데이터를 모아두면 민간이 알아서 활용할 것'이라는 막연한 기대 속에서 명확한 목적(目的) 없이 추진됐기에 실제 산업 현장에서 활용 가치가 낮다는 평가도 받고 있다.
데이터의 축적 목적과 활용 방향 자체가 불명확하기에 자연스럽게 그 뒤에 이어지는 데이터의 정제, 품질관리, 표준화 등의 방향도 잘 정립되지 못하였을 것이다. 미국, 중국 등 선진국과 AI 기술 격차도 줄이지 못하면서 활용성이 낮은 데이터로 인해 '데이터 쓰레기장(Data Swamp)'이라는 비판도 받게 됐다.
성공한 데이터 레이크는 명확한 목적을 가지고 구축된다. 넷플릭스는 고객에게 최적화된 콘텐츠 제공, 우버는 승객과 운전자를 연결하는 모빌리티 플랫폼, 아마존은 고객 중심 이커머스 혁신, 캐피털 원은 금융 서비스 혁신이라는 명확한 목표하에 데이터 레이크를 구축했다.
이재명 대통령 1호 공약은 'AI 3대 강국'이다. 공약 실천을 위해 대통령을 위원장으로 하는 'AI 강국 위원회'를 설치한다고 했다. 공약 내용은 AI 민간투자 100조 원 시대 개막, 선진국 수준 AI 예산 증액, 국가 AI 집적 클러스터 조성, AI용 GPU 5만 개 이상 확보, AI 전용 신경망 장치(NPU) 개발 등이다.
'AI 민간투자 100조원 시대' 개막은 정부 주도 하향식(Top-down)에서 탈피해 민간의 자율과 혁신에 기반한 AI 생태계를 조성하겠다는 것이다. 'AI용 GPU 5만개 이상 확보'는 현재 2~3만개 수준의 GPU를 2배 이상 늘려 AI 산업 핵심 인프라이자 '디지털 자본'을 확충하겠다는 의지의 표현으로 기대가 크다.
그런데 데이터 댐 정책으로 축적한 방대한 양의 데이터가 품질, 표준화 부진 등으로 아직 활용성이 낮은 수준인데, 정부의 AI 정책의 방향이 GPU 확대와 같은 하드웨어(HW)적 정책목표에만 집중된다면, 그러한 HW에서 유통돼야 할 데이터 정책은 과연 어떻게 할 것인지에 대한 궁금하다.
기업 경영, 리더십, 조직 문화 등 다양한 분야에서 중요한 개념의 하나로 '목적이 이끄는 성과'라는 말이 있다. 이는 단순히 숫자나 이윤을 추구하는 성과가 아니라, 조직이나 개인이 '왜' 어떤 일을 하는지에 대한 분명한 목적을 중심으로 성과를 창출하는 개념이다.
우리가 글로벌 AI 강국 5~6위에서 3위로 도약한다는 것은 방대한 양의 데이터 집적, GPU 증설에만 그치는 것이 아니다. 우리 사회가 당면한 문제를 정보통신기술(ICT)·AI·데이터 기술과 데이터를 이용해 어떻게 해결하고, 미래의 비전을 어떻게 설정할 것인지, 즉 우리가 추구하는 목적을 정하는 일이 선결(先決)돼야 한다.
데이터 활용 목적을 정할 수 있다면 데이터와 ICT 및 AI·데이터 기술은 이를 뒷받침하는데 문제는 없다. AI 3대 강국으로 가는 데 필요한 결정은 데이터나 기술에 대한 전문성뿐만 아니라, 국가정책에 대한 이해와 미래에 대한 통찰력이라는 인문학적 소양의 바탕이 되어 있는 융합형 인재가 중요하다.
마치 기업에서 최고경영자(CEO)가 인사, 회계, 구매, 영업 등 관련 경험과 식견을 가지고, 기업가정신에 입각한 상상력 내지 창의성을 발휘해 수익모델을 설계하고 드라이브하면, 해당 실무담당 전문가들이 이를 뒷받침해 조직 구성과 인력 배치, 영업활동과 수익창출, 그리고 회계 정산을 하는 것과 마찬가지다.
AI 허브의 방대한 데이터가 냉장고 속 데이터가 아닌 살아있는 데이터가 되도록 하기 위한 리더의 역할은 무엇인가? 리더는 데이터를 통해 추구하는 목적과 해법을 정할 수 있어야 한다. 그 일은 창의력, 상상력을 발현해 기업가 정신과 직관, 집단지성을 통해 목적, 문제와 해법을 발견할 수 있다.
'데이터 혁명'으로 불리는 4차 산업혁명은 사물인터넷(IoT), 위치기반 서비스(LBS)로 현실세계에서 수집되는 데이터를 클라우드 컴퓨팅에 저장하고, 머신러닝, 딥러닝 등 AI 기술을 활용하여 지능화하며, 로봇·가상현실(VR)·증강현실(AR)·확장현실(XR), 블록체인, 플랫폼 기술 등과 접목되어 현실세계를 스마트화하는 과정이다.
'정보화 혁명'이라는 3차 산업혁명 시대에는 나라장터, 민원24시, 특허정보화, 교육정보화(NEIS) 등 목표가 분명했고, 부처 간 역할에 대한 조정력 발휘가 주된 이슈였다. 4차 산업혁명 시대에는 집적된 데이터를 어디에 활용할 것인지 목적도 확실하지 않고, 개인정보, 저작권, 에너지 등 조정대상이 복잡하다.
따라서 'AI 강국 위원회'의 역할도 다양하고, 조정 수요도 많을 것이다. 특히 방대한 데이터를 어디에 어떻게 활용할 수 있을 것인지 문제의 식별과 해결방식을 정하는 데에는 동 위원회의 분과위원회로 '데이터비전위원회'를 설치해 집단지성·기업가 직관으로 데이터 활용 목표를 정하는 것도 방법일 것이다.
창세기 2장 7절에 '여호와 하나님이 땅의 흙으로 사람을 지으시고, 생기를 그의 코에 불어 넣으시니 사람이 생령이 되니라'는 말이 있다. 성경을 하나님이 흙으로 사람을 지으셨고, 그의 코에 생기(生氣), 즉 생명의 호흡을 불어넣으시니 비로소 그 사람이 살아있는 사람, 즉 생령이 됐다는 것이다.
AI 시대에 흙은 데이터이고, 생기는 인간의 상상력과 창의성이다. 데이터에 생기를 불어넣지 못한다면 아무리 많은 데이터를 갖고 있어서 살아있는 데이터가 아닌 냉동된 데이터가 될 수밖에 없다. 현 정부에서 프로즌 데이터에 생기가 불어넣어져서 우리나라에 AI 시대가 활짝 펼쳐지길 기대한다.
송병선 한국데이터산업협회(KODIA) 회장 bssong1@gmail.com
<필자>행정고시 30회로 경제기획원에서 공직을 시작해 기획예산처 정보화예산팀장, 재정개혁2과장, 산업정보예산과장, 기획재정부 연구개발예산과장, 기획재정담당관, 주뉴욕 재정경제금융관, 국유재산심의관, 대통령직속 지역발전위원회 기획단장 등을 역임하고 한국기업데이터 대표이사 사장을 거쳐 지난해 5월 한국데이터산업협회 2대 회장에 취임했다.