'AI 가짜뉴스가 저널리즘을 죽인다'던 그 기사, 알고 보니 AI가 쓴 가짜뉴스였다

'AI가 만든 가짜뉴스 때문에 진짜 저널리즘이 죽어가고 있다.' 요즘 이런 논조의 기사, 다들 한 번쯤 보셨을 거예요. 그런데 하버드 저널리즘 연구소에서 운영하는 매체인 니먼랩(Nieman Lab)이 최근 기가 막힌 사례를 하나 짚었어요. AI 가짜뉴스의 폐해를 한탄하는 바로 그런 기사가, 알고 보니 그 자체로 AI가 만들어낸 가짜뉴스였다는 거예요. 가짜뉴스가 가짜뉴스를 비판하는, 뱀이 자기 꼬리를 물고 있는 그림이 현실이 된 거죠.

웃고 넘기기엔 이 사건이 보여주는 구조가 꽤 의미심장한데요, 오늘은 이게 어떻게 가능한 일인지, 그리고 개발자인 우리에게 어떤 숙제를 남기는지 풀어볼게요.

AI 콘텐츠 팜은 이렇게 돌아가요

먼저 이런 기사가 어디서 나오는지부터 볼게요. 흔히 '콘텐츠 팜'이라고 부르는 곳들인데, 공장처럼 콘텐츠를 찍어낸다고 해서 붙은 이름이에요. 구조는 단순해요. 먼저 지금 검색량이 많은 키워드나 화제가 되는 주제를 자동으로 수집하고요, 그 주제로 LLM에게 기사를 쓰게 해요. 진짜 언론사처럼 보이게 그럴듯한 사이트 이름을 붙이고, 존재하지 않는 기자의 이름과 프로필 사진까지 만들어 붙이죠. 그다음 검색엔진 최적화, 그러니까 SEO로 검색 결과 상위에 노출시키고, 방문자가 들어오면 자동으로 붙는 프로그래매틱 광고로 수익을 내는 거예요. 사람이 기사를 쓰던 시절에는 글 하나마다 인건비가 들었지만, 이제는 생산 비용이 사실상 0에 가까워요. 100개를 찍어서 1개만 검색에 걸려도 남는 장사가 된 거죠. 이렇게 대량생산된 저품질 AI 콘텐츠를 요즘 영어권에서는 '슬롭(slop)'이라고 불러요. 여물통에 마구 퍼담은 사료라는 뜻인데, 어감이 딱 오시죠.

왜 하필 '그 주제'까지 쓰게 됐을까요

여기서 핵심적인 아이러니가 나와요. 콘텐츠 팜은 주제의 의미를 이해하고 글을 쓰는 게 아니거든요. 그냥 '사람들이 많이 검색하는 주제'를 기계적으로 물어올 뿐이에요. 그런데 'AI 가짜뉴스의 위협'이라는 주제가 마침 사람들의 관심과 검색 수요가 많은 키워드잖아요? 그러니 시스템 입장에서는 그 주제로도 기사를 찍어내는 게 당연한 거예요. 자기 자신을 비판하는 내용이라는 자각 같은 건 애초에 존재하지 않으니까요. 결과적으로 AI가 'AI 때문에 언론이 죽는다'며 통탄하는 글을 쓰는, 블랙코미디 같은 장면이 완성된 거죠.

업계는 어떻게 대응하고 있을까요

이 문제를 추적하는 곳들이 있어요. 뉴스 신뢰도를 평가하는 NewsGuard 같은 단체는 사람 없이 AI로만 돌아가는 뉴스 사이트를 수백 개 단위로 추적해왔는데, 그 수가 계속 늘고 있다고 해요. 기술 쪽에서는 두 가지 걱정이 겹쳐 있는데요. 하나는 '모델 붕괴(model collapse)'라는 문제예요. 이게 뭐냐면, AI가 만든 글이 웹에 쌓이고, 다음 세대 AI가 그 글을 다시 학습 데이터로 삼으면서 품질이 점점 무너지는 되먹임 현상을 말해요. 복사본을 다시 복사하면 화질이 점점 나빠지는 것과 비슷하죠. 다른 하나는 진짜와 가짜를 구별할 방법인데, 콘텐츠가 어디서 어떻게 만들어졌는지 이력을 담는 C2PA 같은 출처 증명 표준이 논의되고 있지만 아직 갈 길이 멀어요. 그리고 이건 남의 나라 이야기가 아니에요. 한국어 웹에도 자동 생성된 블로그 글과 짜깁기 이슈 요약 사이트가 이미 검색 결과 곳곳에 스며들어 있거든요.

개발자인 우리에게 남는 숙제

이 이야기가 개발자에게 와닿는 지점은 '데이터 품질'이에요. 크롤링으로 데이터를 모아서 뭔가를 만드는 일, 요즘 정말 흔하잖아요. 검색 서비스든, LLM에 외부 문서를 물려주는 RAG 시스템이든요. 그런데 웹 자체가 슬롭으로 오염되고 있다면, 수집 단계에서 출처의 신뢰도를 따지는 필터링이 선택이 아니라 필수가 돼요. 어떤 도메인을 신뢰할지, 중복되고 짜깁기된 텍스트를 어떻게 걸러낼지 같은 문제가 파이프라인 설계의 핵심 요건이 되는 거죠. 반대로 AI를 활용해 콘텐츠를 만드는 쪽이라면, 사실 확인과 출처 표기를 어떻게 담보할지가 서비스의 신뢰를 가르는 기준이 될 거고요.

마무리

한 줄로 정리하면, 콘텐츠 생산 비용이 0에 수렴하면서 이제는 '만드는 능력'보다 '걸러내는 능력'이 귀해지는 시대가 왔다는 거예요. 여러분은 글을 읽을 때 사람이 쓴 글인지 의심해보는 자신만의 기준이 있으세요? 데이터 파이프라인을 만든다면 슬롭을 어떻게 걸러내실 건가요?

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News 종이 잡지를 검색창에 넣다 — 빈티지 잡지 아카이브로 배우는 나만의 검색엔진 만들기