딥페이크(deepfake·합성 조작) 음성 알고리즘으로 만든 영어와 중국어 문장을 들려주는 실험에서 사람들이 딥페이크 음성 4개 중 1개는 진짜 사람 음성과 구분해내지 못한 것으로 나타났다.
영국 유니버시티 칼리지 런던(UCL) 루이스 그리핀 교수팀은 3일 과학저널 ‘플로스 원'(PLOS ONE)에서 영어와 중국어 딥페이크 음성을 들려주고 진짜와 가짜를 찾아내는 실험에서 참가자들이 딥페이크 음성의 27%를 구분해내지 못했다고 밝혔다.
연구팀은 이 연구 결과는 사람들이 딥페이크 음성을 제대로 구분해내지 못한다는 것을 확인시켜주는 것으로 딥페이크 음성·이미지의 위협에 대응하기 위한 대응 전략의 필요성을 보여준다고 말했다.
딥페이크는 실제 사람 목소리나 외모와 비슷하게 음성·이미지 등을 합성 조작해 만드는 기술이다. 딥페이크는 실제 인물의 동영상이나 오디오 같은 데이터세트의 패턴과 특성을 학습해 원본 음성이나 이미지를 재현할 수 있게 알고리즘을 훈련하는 기계학습(ML)의 일종인 생성형 인공지능(AI) 범주에 속한다.
초기 딥페이크 음성 알고리즘은 원본 오디오 생성을 위해 수천 개의 음성 샘플이 필요했지만 최신 사전학습 알고리즘은 단 3초 분량 음성 클립만으로도 사람 음성을 재현할 수 있다.
연구팀은 이 연구에서 공개된 영어와 중국어 데이터세트로 훈련된 텍스트 음성 변환(TTS) 알고리즘을 사용해 각 언어로 된 딥페이크 음성 샘플 50개씩을 만들고 이를 529명에게 들려주면서 가짜와 진짜 음성을 구분하도록 했다.
그 결과 실험 참가자들은 딥페이크 음성의 73%만 구분해 냈으며, 이런 탐지율은 영어와 중국어 사이에 차이가 없었다.
이어 실험 참가자들에게 딥페이크 음성의 예를 제시하고 구분법을 훈련한 뒤 실시한 실험에서도 페이크 탐지 능력은 약간 개선되는 데 그친 것으로 나타났다.
연구팀은 딥페이크 음성 구분이 어렵다는 것은 딥페이크가 악용될 가능성이 높다는 것을 의미한다며 이런 위협에 대한 방어 대책이 필요하다고 지적했다.
실제로 2019년 영국의 한 에너지 회사에서는 한 직원이 AI 기술로 제작된 상사의 딥페이크 음성 메시지를 받고 헝가리 회사에 20만 유로(약 2억5천만원)를 송금하는 사건이 발생하기도 했다.
논문 제1 저자인 킴벌리 마이 연구원(박사과정)은 “실험에 사용된 샘플이 비교적 오래된 알고리즘으로 만들어진 점을 고려하면, 사람들이 현재와 미래의 정교한 기술로 만든 딥페이크 음성을 얼마나 감지해낼 수 있을지 의문이 든다”고 말했다.
연구팀은 AI 오디오 기술이 언어에 제한이 있거나 질병으로 목소리를 잃은 사람 등에게 도움을 줄 수 있지만, 범죄자나 권력기관 등이 악용해 개인과 사회에 심각한 해를 끼칠 수 있다는 우려도 커지고 있다고 지적했다.
그리핀 교수는 “생성형 AI 기술이 발달하고 이중 상당수가 공개돼 누구나 사용할 수 있게 되면서 그 이점뿐 아니라 위험도 목격하게 됐다”며 “정부와 기관들은 이런 기술의 남용에 대처하기 위한 전략을 개발해야 할 것”이라고 말했다. 연합뉴스