처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.06.21 33

더 크면 더 똑똑할까? 거대 모델이 오픈 모델보다 환각을 3배 더 일으킨 이야기

Hacker News 원문 보기

AI 모델 고를 때 우리 은근히 '클수록 좋겠지', '최신 상용 모델이 제일 똑똑하겠지' 하고 믿잖아요. 그런데 최근 한 분석에서 흥미로운 결과가 나왔어요. 거대 상용 모델인 GPT-5.5가, MIT 라이선스로 공개된 오픈 모델 GLM-5.2보다 오히려 환각(hallucination)을 3배나 더 많이 일으켰다는 거예요. '크고 비싼 게 항상 정답은 아니다'라는, 요즘 AI 업계의 중요한 흐름을 정확히 짚어주는 사례라 같이 들여다볼게요.

먼저, '환각'이 뭐냐면요

환각은 AI가 틀린 내용을 아주 자신만만하게 사실처럼 지어내는 현상이에요. 존재하지도 않는 논문을 인용하거나, 없는 함수 이름을 진짜처럼 알려주거나 하는 거죠. 개발자한테 특히 골치 아픈 게, 모델이 "잘 모르겠어요"라고 솔직히 말하는 대신 그럴듯한 거짓말을 술술 늘어놓는다는 점이에요. 그래서 환각률은 AI 모델을 실무에 쓸 때 가장 중요하게 보는 지표 중 하나예요.

큰 모델이 오히려 더 많이 틀리는 이유

직관적으론 이상하죠. 더 크고 더 많이 학습한 모델이 왜 거짓말을 더 할까요? 여기엔 몇 가지 이유가 있어요.

첫째, 큰 모델일수록 유창하고 자신감 넘치게 말하도록 다듬어진 경우가 많아요. 사람 피드백으로 학습시키는 과정(RLHF)에서 '도움 되게, 막힘없이 답하라'를 강조하다 보면, 모를 때 침묵하기보다 일단 그럴듯하게 찍어 맞히는 쪽으로 기울 수 있거든요. 똑똑해 보이려다 헛소리를 하는 거죠.

둘째, 환각률이라는 숫자 자체가 측정 방식에 크게 좌우돼요. 모델이 모르는 걸 '모른다'고 솔직히 기권(abstain)하면 환각 점수는 좋아지지만, 대신 답을 덜 주니까 실용성은 떨어질 수 있어요. 그래서 "3배 차이"라는 수치도 어떤 벤치마크에서, 어떤 도메인의 질문으로, 어떻게 측정했느냐를 꼭 같이 봐야 해요. 한 가지 숫자만 떼어내서 '이 모델이 무조건 우월하다'고 단정하긴 이르다는 거죠. 그래도 거대 상용 모델이 작은 오픈 모델에 이 지표에서 졌다는 사실 자체가 시사하는 바는 분명해요.

'MIT 라이선스'가 왜 중요한 포인트일까

이 뉴스에서 'MIT 라이선스'라는 말을 굳이 강조한 데는 이유가 있어요. MIT 라이선스는 거의 제약 없이 자유롭게 쓸 수 있는 오픈 라이선스거든요. 상업적으로 써도 되고, 내 서버에 직접 올려서 돌려도 되고, 입맛대로 파인튜닝(추가 학습)해도 돼요. 반면 GPT 같은 상용 모델은 API로만 빌려 쓰는 구조라, 데이터를 외부로 보내야 하고 비용도 호출량에 따라 계속 나가죠.

즉 이 비교는 단순히 '누가 더 정확하냐'를 넘어서, '공짜로 내 손에 쥘 수 있는 모델이 비싼 상용 모델만큼, 혹은 그 이상으로 정확하다'는 흐름을 보여주는 거예요.

업계 흐름에서 보면

사실 이건 갑자기 튀어나온 이야기가 아니에요. GLM(즈푸 AI), Qwen, DeepSeek, Kimi 같은 중국발 오픈 웨이트 모델들이 최근 몇 년간 무섭게 따라붙으면서, OpenAI·구글·앤트로픽 같은 폐쇄형 선두 모델과의 격차를 빠르게 좁혀왔거든요. 한때는 '오픈 모델은 장난감, 진짜 일은 상용 모델로'라는 인식이 있었는데, 이제는 특정 작업에선 오픈 모델이 더 낫기도 한 시대가 된 거예요. 비용과 통제권까지 따지면 무게추가 더 기울죠.

한국 개발자에게 주는 시사점

현실적으로 와닿는 지점이 많아요. 금융·공공·의료처럼 데이터를 외부로 못 보내는 분야에선 자체 서버에 올릴 수 있는 오픈 모델이 거의 필수인데, 그 오픈 모델의 정확도가 상용 수준이라면 선택의 폭이 확 넓어지거든요. 비용 면에서도 호출마다 돈 나가는 API 대신 자체 호스팅이 장기적으로 유리할 수 있고요.

다만 제가 꼭 강조하고 싶은 건, 리더보드 숫자만 믿지 말라는 거예요. '환각 3배 적음' 같은 헤드라인은 출발점일 뿐, 정말 중요한 건 여러분의 실제 업무 데이터로 직접 평가해보는 거예요. 또 어떤 모델을 쓰든 환각을 근본적으로 줄이려면, 신뢰할 수 있는 자료를 함께 넣어주는 RAG(검색 증강 생성) 같은 기법을 곁들이는 게 정석이고요.

정리하자면

'크고 비싼 모델 = 정답'이라는 공식은 깨지고 있어요. 자유롭게 쓸 수 있는 오픈 모델이 핵심 지표에서 거대 상용 모델을 이기는 장면이 점점 흔해지고 있거든요. 여러분은 지금 어떤 모델을 쓰고 계신가요? 그리고 모델을 고를 때 벤치마크 점수와 '내 데이터로 직접 테스트', 어느 쪽을 더 믿으시나요?


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.