
인공지능(AI)의 활용이 급속도로 확대되는 가운데, AI의 편향성 문제에 대한 경각심이 요구된다. AI의 답변은 어떤 데이터를 바탕으로 학습했느냐에 따라 달라질 수밖에 없으며, 그 과정에서 의도치 않은 왜곡과 불균형이 발생할 가능성이 크다.
현재 AI는 온라인 뉴스나 인터넷과 같은 거대한 공공 데이터를 기반으로 학습되고 있지만, 모든 데이터를 전문가가 검증하는 것은 현실적으로 불가능하다. 따라서 학습 데이터의 질적 한계를 완전히 극복하기 어려우며, 이로 인해 정보의 정확성과 일관성 측면에서 여러 문제가 제기될 수 있다.
특히 한국어 기반 AI 서비스에서는 편향성이 더욱 심각한 문제로 떠오른다. AI가 역사·문화·사회적 가치관을 반영하는 과정에서 서구 중심적 시각이나 특정 국가의 입장이 강화되는 경향을 보이기 때문이다.
실제로 일부 AI 챗봇과 번역 AI가 일제강점기 위안부나 강제징용 문제에 대해 왜곡된 정보를 제공하는 사례가 발생했다. “위안부는 자발적으로 일했다”거나 “강제징용은 노동 계약이었다”는 식의 오류는 AI가 서구권 데이터에서 일본 측 자료를 더 많이 학습한 결과일 가능성이 크다.
독도 문제 역시 마찬가지다. AI가 독도를 “리앙쿠르 암초” 혹은 “일본과 한국이 영유권을 주장하는 섬”이라고 설명하는 것은 학습 데이터 편향성의 단적인 예다. 이는 한국뿐만 아니라 역사적·문화적 정체성이 중요한 많은 국가들에게도 심각한 문제로 작용할 수 있다.
AI의 편향성 문제는 특정 국가나 문화에 국한되지 않는다. 예를 들어, 미국에서도 성별과 젠더 이슈와 관련된 AI 편향이 문제로 지적되고 있다. 일부 AI 모델이 “여성은 감성적이고, 남성은 논리적이다”와 같은 성 역할 고정관념을 답변에 반영하는 사례가 있다.
이는 AI가 학습한 방대한 인터넷 데이터 속에 성차별적 편견이 내재하여 있기 때문이다. 이처럼 AI가 단순히 사실을 전달하는 도구가 아니라, 학습된 데이터에 따라 특정한 관점을 강화할 가능성이 있다는 점은 우리가 깊이 고민해야 할 부분이다.
더욱 우려스러운 점은 쉽게 드러나지 않는 ‘미세한 편향성’이다. 서구권 데이터로 학습된 AI는 서구권의 감정, 철학, 가치관을 자연스럽게 반영하며, 이는 궁극적으로 서구권에 유리한 정보 제공으로 이어질 수 있다.
마찬가지로, 중국 데이터로 학습된 AI는 중국의 사고방식을 반영해 중국에 유리한 정보를 생성할 가능성이 크다. 문제는 이러한 미묘한 편향성이 반복적으로 축적되면서 사용자들이 무의식적으로 친서구적, 친중국적 사고방식을 내면화할 위험이 있다는 점이다.
특히, 미래 세대가 AI를 주요 정보원으로 삼을 경우, 편향된 정보가 그대로 교육에 반영될 수 있다는 점에서 심각한 문제가 될 수 있다.
그렇다면 이러한 편향성을 어떻게 극복할 수 있을까.
현실적으로 이미 존재하는 데이터에서 편향성을 제거하는 것은 불가능에 가깝다. 최소한 한국에 맞춘 AI를 개발하기 위해서는 대용량의 다양한 양질의 한국어 데이터를 확보해야 하지만, 단기간에 이를 구축하기란 쉽지 않다.
현재 네이버와 같은 기업과 정부가 협력해 한국형 AI 개발에 나서고 있지만, 학습에 필요한 방대한 한국어 콘텐츠가 부족하다는 근본적 한계를 극복하는 것은 쉽지 않을 것이다.
AI의 편향성 문제는 단순히 기술적 해결만으로 해결될 수 있는 문제가 아니다. AI가 학습에 사용한 데이터가 가진 원천적 편향성의 문제는 쉽게 해결하기 어려운 문제이기에 AI의 사용자들은 이 문제를 항상 염두에 두고 AI의 답변을 다시 한번 검토해 소화하는 노력이 필요하다.
김선호 / USC 컴퓨터 과학자