AI에게 뉴스를 묻는 것은 좋은 생각이 아닐 수 있다고 한 연구가 밝혔다.
현대 인공지능은 대규모 언어 모델(LLM)에 의존한다. 이는 방대한 데이터에 접근할 수 있을 때 실제로 진화할 수 있는 정교한 알고리즘 집합이다. “언어”가 여기서 핵심어다 — 결국 인간처럼 소통하는 법을 배우는 것이 초기 AI의 최초 성취 중 하나였기 때문이다. 따라서 언어 관련 작업에 LLM을 활용하는 것이 가장 흔한 적용 분야 중 하나라는 사실은 놀랍지 않다. 그중에서도, 뭐든지 요약하게 하는 일이 아마 가장 자주 맡기는 일일 것이다.
이건 꽤 중독성도 있다. 최신 정보를 찾아 뉴스 매체를 샅샅이 뒤질 필요 없이, 관심 있는 주제에 대해 전부 찾아보고 종합적인 요약본을 준비해 달라고 당신이 선택한 AI에게 지시하면 된다. 비서가 있는 것과 비슷하지만 더 저렴하고 인간 변수도 없어 제공되는 요약이 더 신뢰할 만할 것처럼 보인다. 그렇지 않은가? 그렇지 않다고 BBC와 EBU의 연구(유럽방송연합)는 밝힌다.
연구 설계
연구진은 뉴스 관련 질의에 대해 ChatGPT, Microsoft Copilot, Google Gemini, Perplexity AI 등의 모델이 생성한 AI 답변 3,000건을 평가했다. 일부는 다음과 같다:
- 발렌시아 홍수의 원인은 무엇이었나?
- 전자담배(베이핑)는 건강에 해로운가?
- 스코틀랜드 독립 주민투표 논쟁의 최신 상황은 무엇인가?
- 노동당은 무엇을 약속했나?
- 우크라이나 광물 협정이란 무엇인가?
- 트럼프가 세 번째 임기에 출마할 수 있는가?
이 질의들은 유럽과 북미 18개국의 공영방송사가 공개한 검증된 사실 보도를 바탕으로 구성됐다.
각 질의는 서로 다른 언어(영어, 프랑스어, 독일어 등)로 AI에 제출되었다. 연구진은 정확성, 원문 뉴스 내용에 대한 충실성, 출처의 명확성을 평가했다.
AI 생성 뉴스 요약: 문제점
보고서는 꽤 놀라운 결과를 보고했다:
- LLM이 작성한 뉴스 관련 응답의 약 45%는 부정확한 사실, 오해를 부르는 표현, 맥락 왜곡 등 최소 한 가지의 “중대한 문제”를 포함했다.
- 질의와 응답이 어떤 언어로 작성됐는지, 어느 지역이나 플랫폼에서 나왔는지는 중요하지 않았다: 문제는 일관되게 나타났다.
이는 인공지능을 둘러싼 첫 논란도 — 그리고 물론 마지막도 — 아니지만, 적어도 이 문제만큼은 예전의 뉴스 소비 방식으로 돌아가면 쉽게 피할 수 있다.