소셜 미디어 '가짜 뉴스' 골라낸다…루머 탐지 AI 알고리즘 개발

2024-10-03

전북대 조재혁 교수 연구팀, 루머 텍스트 분류 딥러닝 모델 개발

실험결과 98% 이상 정확도…'알렉산드리아 공학저널' 게재

소셜 미디어에서 넘쳐나는 가짜 뉴스를 효과적으로 탐지하고, 분류하는 기술에 대한 사회적 관심이 높은 가운데 전북대학교 소프트웨어공학과의 적응형 AI 연구팀이 소셜 미디어상의 루머 텍스트를 분류할 수 있는 하이브리드 딥러닝 모델을 개발했다.

연구책임자인 조재혁 교수와 박사과정 유서현 학생이 국제공동연구를 통해 개발한 하이브리드 딥러닝 모델에 대한 연구 결과를 담은 논문은 인공지능 및 엔지니어링 분야에서 높은 학술적 가치를 인정받는, SCIE 상위 IF 10% 이내 저널인 '알렉산드리아 공학저널(Alexandria Engineering Journal)'에 게재됐다.

버트 옵시안(BERT-OPCNN)과 피악 임베딩(FIAC embedding)을 결합한 새로운 하이브리드 모델을 제안한 연구팀은 소셜 미디어에서 급속히 확산되는 잘못된 정보와 루머를 효과적으로 탐지할 수 있는지 실험했다.

연구는 두 단계의 특징 추출 기법으로 진행됐다. 첫 번째 단계에서는 자연어 처리(NLP) 분야에서 널리 사용되는 딥러닝 모델인 ‘BERT’와 이미지 처리에 최적화 된 딥러닝 모델인 ‘CNN(BERT-OPCNN)’을 활용해 텍스트 데이터를 임베딩하고 특징을 추출했다. BERT는 문맥 정보를 양방향으로 처리해 텍스트의 의미를 더욱 정확하게 파악하며, 최적화된 CNN은 다양한 패턴을 학습하여 지역적 및 전역적 특징을 효과적으로 추출하는 데 기여했다.

이어 두 번째 단계에서는 단어 임베딩 기법인 ‘FastText’와 정보이득 기반의 개미군집 최적화(FIAC)를 적용해 정교한 특징 벡터를 생성했다. FastText는 단어를 n-gram 방식으로 분해해 드문 단어나 잘못된 단어에 대한 임베딩을 생성하고, 정보이득 기법을 통해 의미 있는 특징들을 선택하여 개미군집 알고리즘으로 최적화했다. 이렇게 생성된 특징 벡터는 서로 보완적인 정보를 제공하며, 최종적으로 학습에 사용될 특징 벡터를 구성했다.

결합된 특징 벡터는 비선형 장기 기억망(Bi-LSTM)에 적용되어 루머 텍스트를 분류했으며, Bi-LSTM은 양방향 정보를 모두 고려해 텍스트의 맥락을 깊이 분석하고 루머와 비루머를 효과적으로 구분했다. 특히, 비용 민감 학습(Cost-Sensitive Learning, CSL) 기법을 적용해 클래스 불균형 문제를 해결하고, 데이터 불균형에 따른 오류를 줄였다. 이를 통해 루머 탐지 시스템의 정확도와 신뢰성을 크게 향상시켰다.

이렇게 실험한 결과, 제안된 모델은 뉴스 및 정보의 진위 여부를 판별하기 위해 사용되LIAR와 Fake & Real News (ISOT) 데이터셋에서 각각 98.24%의 높은 정확도를 기록했다. 연구팀은 정보 증강 기법을 통해 데이터셋의 다양성을 증가시킴으로써 모델의 일반화 능력을 향상시키고, 실시간 루머 탐지 시스템의 성능도 크게 개선될 것으로 기대하고 있다.

조재혁 교수는 “이번 연구가 소셜 미디어에서 잘못된 정보의 확산을 방지하고 신뢰할 수 있는 정보 환경을 조성하는 데 중요한 기여를 할 것을 본다. 향후 다양한 언어와 플랫폼에 적용 가능한 확장 연구를 통해 루머 탐지 기술의 상용화를 목표로 하고 있다"고 말했다.

한편, 이번 연구는 한국 환경산업기술원과 과학기술정보통신부의 지원을 받아 진행됐으며, 연구팀은 현재 기술의 상용화를 위해 지난 7월 특허 출원을 마쳤으며, 등록 절차를 진행 중이다.

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.