카카오엔터프라이즈가 29일 한국생명정보학회 정기학술대회 ‘바이오인포 2024(이하 BIOINFO 2024, 2024 Annual Conference of Korean Society for Bioinformatics)’에서 카카오클라우드에 기반한 유전체 빅데이터 분석 교육 워크숍을 진행했다고 밝혔다.
한국생명정보학회는 국내 생물정보학 및 시스템생물학 분야를 대표하는 학회로 학술적 연구와 국내외 교류, 관련 전문 인력 양성 등을 추진하고 있다. 한국생명정보학회는 지난 22일부터 25일까지 총 4일간 경주화백컨벤션센터에서 BIOINFO 2024를 열고 다양한 주제의 강연 및 워크숍을 진행했다.
의료·바이오산업 분야에서 카카오클라우드 사용 확대 및 연구 기술 고도화를 위한 이번 워크숍에 약 30여 명의 병원 관계자, 연구원, 대학생 등이 참여했다. 워크숍은 ▲카카오클라우드 소개 ▲GATK(유전체 분석 툴킷, Genome Analysis Tool Kit) 파이프라인 구성 및 개요 ▲빅데이터 분석 실습 등의 내용으로 구성됐다.
의료 빅데이터의 핵심 자원으로 주목받고 있는 유전체 데이터는 염기 서열 분석, 변이 식별 등 복잡한 계산을 필요로 한다. 예를 들면 사람 1명의 유전체 데이터는 약 30억 개의 염기쌍(유전 정보를 담고 있는 기본 단위)으로 이뤄져있으며 약 2만 개의 유전자로 구성돼 있다.
이 데이터를 저장하려면 전장 유전체(한 사람의 전체 유전자 정보)는 약 120GB, 전사체(유전자 활동에 관한 정보)는 약 10GB, 메타지놈(미생물 정보)은 약 20GB가 필요하다. 이렇듯 높은 복잡도를 가진 대량의 유전체 데이터를 효과적으로 처리하기 위해선 클라우드 기반 분석 도구가 필수 불가결하다.
이번 워크숍에서는 미국 국립표준기술연구소(NIST) 주도의 GIAB(Genome In A Bottle) 컨소시엄이 제공하는 고품질 참조 유전체(Genome)인 골드 스탠다드 유전체(유전체 식별 고유번호 NA12878)를 활용해 ▲인구 내 유전체 변이 발생 빈도 ▲유전체 변이와 질병 간 관계 및 임상적 해석 ▲유전체 변이가 단백질 및 유전자 기능에 미치는 해로운 영향 예측을 위한 분석 실습을 진행했다.
효과적인 유전체 분석을 위해 지난 7월 고려대학교 의과대학과 체결한 업무 협약의 연장선에서 제공되는 GATK 파이프라인이 활용됐다. 유전체 분석에 널리 사용되고 있는 오픈소스 GATK가 충분한 성능을 발휘할 수 있도록 카카오클라우드의 분산 데이터 처리 프레임워크인 하둡 에코(Hadoop Eco) 기반으로 분산·병렬 연산 아키텍처를 최적화했다.
최광묵 카카오엔터프라이즈 사업개발TF장은 “이번 워크숍을 통해 카카오클라우드 환경에서 유전체 변이 관련 발생 빈도, 임상 정보, 유해성 예측 등 다양한 데이터 분석 실습이 성공적으로 진행됐다”며 “카카오클라우드는 의료·바이오산업 분야에서 클라우드를 더욱 원활하게 사용할 수 있도록 적극 지원하고 있으며 업계 전문가들과 지속적인 기술 교류 및 협력을 이어가고 있다”고 강조했다.
헬로티 이창현 기자 |