“의존성에도 LLM 코드는 안 받겠다” — 오픈소스 베테랑의 선언이 던진 숙제

git-annex라는 파일 관리 도구로 유명한 오픈소스 베테랑 개발자 조이 헤스(Joey Hess)가 블로그에 의미심장한 글을 올렸어요. 자기 프로젝트에 LLM이 생성한 코드를 받지 않는 건 이미 정해둔 방침인데, 여기서 한 발 더 나아가 프로젝트가 사용하는 의존성(dependency)에까지 LLM 생성 코드가 섞이는 걸 거부하겠다는 선언이거든요. 헤스는 데비안(Debian) 프로젝트에서 오랫동안 활동해온, 오픈소스 세계에서 발언의 무게가 있는 인물이라 이 글이 던진 파장이 작지 않아요.

왜 이렇게까지?

핵심 논거는 코드의 “출처(provenance)” 문제예요. 오픈소스 생태계는 기본적으로 신뢰 위에서 돌아가거든요. 누군가 코드를 기여하면 “이 코드는 내가 작성했고, 이 라이선스로 배포할 권리가 나에게 있다”고 보증하는 거예요. 실제로 리눅스 커널 같은 프로젝트는 DCO(Developer Certificate of Origin)라는 서약에 서명하게 해요. 이게 뭐냐면, 커밋할 때마다 “이 코드의 출처를 내가 책임진다”고 도장을 찍는 절차라고 보시면 돼요.

그런데 LLM이 생성한 코드는 이 보증이 근본부터 흔들려요. 모델이 학습한 수많은 코드 중에 어떤 라이선스의 코드가 어느 정도 반영됐는지 아무도 알 수 없거든요. 예를 들어 GPL 라이선스 코드를 학습한 모델이 그와 거의 똑같은 코드를 뱉어냈는데, 그걸 MIT 라이선스 프로젝트에 넣었다면? 법적으로 어떻게 되는지 아직 확실한 답이 없는 상태예요.

헤스의 주장이 특히 까다로운 건 “의존성”까지 범위를 넓혔다는 점이에요. 요즘 프로젝트 하나가 수백 개의 패키지에 의존하는 게 보통이잖아요. 그 패키지들 각각의 기여자들이 LLM을 썼는지 안 썼는지 확인하는 건 사실상 불가능에 가까워요. 그래서 이 선언은 당장 실현 가능한 정책이라기보다, “우리가 아무 생각 없이 넘어가고 있는 문제를 직시하자”는 문제 제기에 가깝다고 보는 시각도 있어요.

업계는 어떻게 갈라지고 있나

이 논쟁은 헤스 혼자만의 이야기가 아니에요. 리눅스 배포판 젠투(Gentoo)는 일찌감치 AI 생성 코드 기여를 금지하는 정책을 채택했고, NetBSD도 비슷한 가이드라인을 내놨어요. 가상화 프로젝트 QEMU도 코드 출처를 보증할 수 없다는 이유로 AI 생성 콘텐츠 기여를 받지 않기로 했고요. 반면 상당수 프로젝트와 기업들은 정반대 방향으로 가고 있죠. AI 도구를 적극 활용해서 생산성을 높이고, 기여 문턱을 낮추자는 쪽이에요.

품질 문제도 논쟁의 한 축이에요. curl 프로젝트의 메인테이너는 AI가 만들어낸 그럴듯하지만 엉터리인 보안 취약점 제보가 쏟아져서 리뷰 부담이 폭증했다고 여러 번 토로했거든요. 오픈소스 메인테이너는 대부분 무보수 자원봉사자인데, LLM 덕분에 기여의 “양”은 늘었지만 검증 비용이 고스란히 메인테이너에게 전가되고 있다는 거예요. 겉보기엔 멀쩡한데 미묘하게 틀린 코드는 사람이 대충 쓴 코드보다 리뷰하기가 오히려 더 어렵거든요.

한국 개발자에게 주는 시사점

당장 실무에 와닿는 지점은 두 가지예요. 첫째, 오픈소스에 기여할 때 해당 프로젝트의 AI 정책을 먼저 확인하는 습관이 필요해졌어요. 프로젝트마다 CONTRIBUTING 문서에 AI 관련 조항을 넣는 경우가 늘고 있거든요. 모르고 어겼다가 기여가 통째로 거부되면 서로 피곤해지니까요.

둘째, 회사 차원에서는 코드 출처 관리가 컴플라이언스 이슈가 될 수 있어요. 우리 제품에 들어간 코드가 어디서 왔는지 소명해야 하는 상황, 예를 들어 라이선스 감사나 인수합병 실사에서 “AI가 짜줬는데 출처는 모릅니다”라는 답은 곤란하잖아요. AI 도구 사용 자체를 막을 필요는 없지만, 어떤 도구를 어떤 범위에서 썼는지 기록을 남기는 정책 정도는 고민해볼 때가 됐어요.

정리하며

한 줄 정리: LLM 코드 논쟁은 이제 “내 프로젝트에 받을까 말까”를 넘어 “생태계 전체의 신뢰 체인을 어떻게 유지할까”의 문제로 확장되고 있어요. 여러분은 어떻게 생각하세요? 의존성까지 LLM 코드를 배제하는 게 지켜질 수 있는 원칙일까요, 아니면 시대 흐름을 거스르는 무리수일까요?

🔗 출처: Hacker News

이 글도 읽어보세요