생성형 AI, 치과진료 대체 가능할까?

최근 의료계에서도 인공지능(AI)의 활용이 활발해지면서, 치과계에서도 ChatGPT 등 생성형AI의 역할에 대한 관심이 높아지고 있다. 그러나 생성형AI가 의료진을 대체하기에는 한계가 분명하며, 신뢰성을 담보하기 어려워 보조적인 도구로 활용해야 한다는 지적이 나온다. 한림대학교 구강악안면외과 연구진이 발표한 이번 연구는 지난 2월 국제 학술지 ‘Journal of Clinical Medicine’에 리뷰 논문으로 게재됐다.

연구팀은 논문 데이터베이스에서 2024년 10월까지 발표된 ‘ChatGPT’와 ‘구강악안면외과’ 관련 연구를 검색, 총 26편의 논문을 선별, 분석했다. 그 결과 생성형 AI가 ▲임상 의사 결정 지원 ▲환자 교육 ▲논문 작성 지원 ▲시험 대비 등 다양한 용도로 사용될 수 있지만, 그 정확도와 신뢰성에는 한계가 존재한다고 결론 내렸다.

연구팀의 분석을 종합하면, 생성형AI의 진료 지원 정확도는 약 70~80% 수준이며, 환자 교육에서는 최대 90%의 정확도를 보이기도 했다. 하지만 특정 진단이나 치료 계획을 제시하는 과정에서는 여전히 오류가 발생하며, 복잡한 의학적 판단을 내리는 데에는 부족했다.

특히 생성형AI의 가장 큰 문제 중 하나는 ‘환각(hallucination)’ 현상이었다. 이는 AI가 존재하지 않는 논문을 인용하거나, 실제 학술 자료를 기반으로 하지 않은 잘못된 정보를 생성하는 현상을 의미한다. 연구진은 ChatGPT가 생성한 참고 문헌 중 46.4%가 존재하지 않는 논문이었으며, 논문의 DOI(디지털 객체 식별자) 정확도도 14%에 불과했다고 지적했다. 이러한 문제는 의료 연구에서 심각한 신뢰성 저하로 이어질 수 있어, AI가 제시하는 정보를 그대로 받아들이기보다는 반드시 전문가의 검증을 거쳐야 한다는 점을 강조한다.

연구팀은 생성형AI가 조력자(AI assistant)로 활용될 때 가장 효과적이라고 분석했다. 가령 환자 교육 분야에서는 복잡한 의료 정보를 쉽게 설명하는 데 도움을 줄 수 있고, 연구자들이 논문 아이디어를 구상하거나 문헌 조사를 할 때도 보조 역할을 할 수 있다는 설명이다.

연구팀은 “생성형AI는 정확·신뢰성, 윤리적 문제 등 한계가 여전해 철저한 검증과 지속적인 기술 개선이 필요하다”며 “구강악안면외과 전반에서 AI의 역할을 평가하고, 임상 적용 방안을 정교하게 다듬어 나가야 할 것”이라고 밝혔다.