오라클 데이터베이스가 생성형 AI를 적극적으로 품기 시작했다. 지금까지는 머신러닝 기반으로 자동화에 집중해왔다면 이제는 생성형 AI를 기반으로 협업 이용자들이 데이터를 보다 편리하게 활용할 수 있도록 하겠다는 것이 오라클의 생각이다.
자연어로 DB와 대화한다
가장 대표적인 기능이 셀렉트 AI다. 이는 자연어(사람의 언어)로 DB와 상호작용할 수 있도록 하는 것이 특징이다.
일반적으로 DB의 데이터를 보기 위해서는 SQL이라는 프로그래밍 언어를 알아야 한다. 개발자들의 경우 SQL을 모르는 경우가 거의 없지만 일반 협업 담당자들은 SQL까지 습득하지 않는 경우가 많다. 이 때문에 현업 담당자들은 필요한 데이터를 보고 싶을 경우 IT부서에 요청을 하거나, 애플이케이션에 사전 정의된 방식으로만 데이터를 볼 수 있었다.
하지만 셀렉트 AI를 이용하면 현업 담당자가 DB로부터 데이터를 직접 꺼내서 볼 수 있다. 자연어로 질문을 하면 셀렉트 AI가 이를 SQL로 번역을 해서 데이터베이스에 전달하기 때문이다. 예를 들어 “서울 지역의 여성 매출 변화를 시간별로 보여줘”와 같은 쿼리를 던질 수 있다.
오라클 DB 셀렉트 AI의 특징 중 하나는 원하는 LLM(거대언어모델)을 선택할 수 있다는 점이다. 오라클의 모델뿐 아니라 오픈AI, 코히어, 메타 등 다양한 모델을 선택할 수 있다.
최근에는 ‘셀렉트 AI 컨버세이션’이라는 기능도 추가했다. 이용자가 DB에 질문을 한 번 하고 끝나는 것이 아니라 맥락을 유지한 채 대화하는 것처럼 재질문을 할 수 있다.
12일 방한한 쿠마르 라자마니 오라클 데이터베이스 개발 부문 수석 부사장은 “이용자는 데이터베이스를 대상으로 한국어든 일본어든 영어든 관계없이 자연어로 질문을 할 수 있다”면서 “이를 통해 고객이 보유한 데이터에서 더 많은 인사이트를 확보할 수 있도록 지원한다”고 말했다.
RAG를 더 가까이
오라클 DB는 기업이 RAG(Retrieval-Augmented Generation)를 보다 쉽게 적용할 수 있도록 지원한다. RAG는 기업 내부에 존재하는 데이터를 기반으로 생성형 AI가 답을 할 수 있도록 지원하는 기술이다.
오라클은 RAG를 구현하기 위해 벡터 인덱스를 제공한다. 벡터 인덱스는 데이터를 고차원 벡터로 표현하여 저장한다. 벡터 데이터는 유사한 표현을 검색할 때 유용하다. 단순 키워드 매칭으로 데이터를 찾을 때보다 문맥과 의미를 담아 데이터를 검색할 수 있다.
벡터 인덱스와 RAG 기술을 결합하면 자연어를 사용해서 기존에 가지고 있던 오브젝트 스토리지나 데이터 레이크의 데이터를 대상으로 자연어로 질의할 수 있다. 이렇게 하면 LLM의 환각 현상을 줄일 수 있고, LLM이 사전학습하지 않은 최신 데이터나 도메인 특화 데이터도 LLM 답변에 추가할 수 있다.
쿠마르 부사장은 “오라클은 고객들의 데이터에서 인사이트를 획득하도록 지원을 하고 데이터의 관리를 용이하게 만드는데 AI을 적극적으로 결합하고 있다”고 강조했다.
AI로 데이터를 만들자
일반적으로 시스템을 개발할 때는 운영 데이터베이스에서 데이터의 일부를 복제해서 따로 저장한 다음에 사용한다. 개발을 위해서 데이터가 필요한데, 직접 운영 데이터에 접근하는 것은 위험하기 때문이다.
하지만 이 경우 개인정보 침해 문제가 발생할 수도 있다. 개발을 위해 복제해 온 데이터에 개인정보가 포함돼 있으면 불필요하게 개발자들에게 개인정보가 노출되고, 개발 시스템의 경우 운영 시스템과 달리 보안이 철저하지 않기 때문에 자칫 유출될 위험성도 있다. 이 때문에 많은 기업들은 개발용 데이터를 별도로 만들거나 운영 데이터의 일부를 가리는 마스킹 처리를 한 후 사용한다.
이런 문제를 해결하기 위해 오라클는 셀렉트 AI에 데이터 합성 기능을 추가했다. LLM을 통해 새로운 데이터를 만들어 내는 것이다. 합성된 데이터는 실제 데이터와 형태는 유사하지만 값이 다르기 때문에 데이터가 유출될 우려가 거의 없다.
또 데이터를 증폭 시킬 때도 LLM을 통한 데이터 합성은 유리하다. 초기 시스템의 경우 개발에 필요한 데이터가 부족할 때도 있는데, 데이터 합성을 통해 데이터를 늘릴 수 있다.
쿠마르 부사장은 “오라클 DB의 데이터 합성 기능은 AI와 머신러닝 기술을 활용해 고품질의 합성 데이터를 생성함으로써, 기업들이 데이터 프라이버시를 보호하면서도 효과적으로 개발, 테스트, 분석 작업을 수행할 수 있게 해준다”고 말했다.
글. 바이라인네트워크
<심재석 기자>shimsky@byline.network