Hacker News 2026.06.21 33

#AI #GPT #API

더 크면 더 똑똑할까? 거대 모델이 오픈 모델보다 환각을 3배 더 일으킨 이야기

AI 모델 고를 때 우리 은근히 '클수록 좋겠지', '최신 상용 모델이 제일 똑똑하겠지' 하고 믿잖아요. 그런데 최근 한 분석에서 흥미로운 결과가 나왔어요. 거대 상용 모델인 GPT-5.5가, MIT 라이선스로 공개된 오픈 모델 GLM-5.2보다 오히려 환각(hallucination)을 3배나 더 많이 일으켰다는 거예요. '크고 비싼 게 항상 정답은 아니다'라는, 요즘 AI 업계의 중요한 흐름을 정확히 짚어주는 사례라 같이 들여다볼게요.

먼저, '환각'이 뭐냐면요

환각은 AI가 틀린 내용을 아주 자신만만하게 사실처럼 지어내는 현상이에요. 존재하지도 않는 논문을 인용하거나, 없는 함수 이름을 진짜처럼 알려주거나 하는 거죠. 개발자한테 특히 골치 아픈 게, 모델이 "잘 모르겠어요"라고 솔직히 말하는 대신 그럴듯한 거짓말을 술술 늘어놓는다는 점이에요. 그래서 환각률은 AI 모델을 실무에 쓸 때 가장 중요하게 보는 지표 중 하나예요.

큰 모델이 오히려 더 많이 틀리는 이유

직관적으론 이상하죠. 더 크고 더 많이 학습한 모델이 왜 거짓말을 더 할까요? 여기엔 몇 가지 이유가 있어요.

첫째, 큰 모델일수록 유창하고 자신감 넘치게 말하도록 다듬어진 경우가 많아요. 사람 피드백으로 학습시키는 과정(RLHF)에서 '도움 되게, 막힘없이 답하라'를 강조하다 보면, 모를 때 침묵하기보다 일단 그럴듯하게 찍어 맞히는 쪽으로 기울 수 있거든요. 똑똑해 보이려다 헛소리를 하는 거죠.

둘째, 환각률이라는 숫자 자체가 측정 방식에 크게 좌우돼요. 모델이 모르는 걸 '모른다'고 솔직히 기권(abstain)하면 환각 점수는 좋아지지만, 대신 답을 덜 주니까 실용성은 떨어질 수 있어요. 그래서 "3배 차이"라는 수치도 어떤 벤치마크에서, 어떤 도메인의 질문으로, 어떻게 측정했느냐를 꼭 같이 봐야 해요. 한 가지 숫자만 떼어내서 '이 모델이 무조건 우월하다'고 단정하긴 이르다는 거죠. 그래도 거대 상용 모델이 작은 오픈 모델에 이 지표에서 졌다는 사실 자체가 시사하는 바는 분명해요.

'MIT 라이선스'가 왜 중요한 포인트일까

이 뉴스에서 'MIT 라이선스'라는 말을 굳이 강조한 데는 이유가 있어요. MIT 라이선스는 거의 제약 없이 자유롭게 쓸 수 있는 오픈 라이선스거든요. 상업적으로 써도 되고, 내 서버에 직접 올려서 돌려도 되고, 입맛대로 파인튜닝(추가 학습)해도 돼요. 반면 GPT 같은 상용 모델은 API로만 빌려 쓰는 구조라, 데이터를 외부로 보내야 하고 비용도 호출량에 따라 계속 나가죠.

즉 이 비교는 단순히 '누가 더 정확하냐'를 넘어서, '공짜로 내 손에 쥘 수 있는 모델이 비싼 상용 모델만큼, 혹은 그 이상으로 정확하다'는 흐름을 보여주는 거예요.

업계 흐름에서 보면

사실 이건 갑자기 튀어나온 이야기가 아니에요. GLM(즈푸 AI), Qwen, DeepSeek, Kimi 같은 중국발 오픈 웨이트 모델들이 최근 몇 년간 무섭게 따라붙으면서, OpenAI·구글·앤트로픽 같은 폐쇄형 선두 모델과의 격차를 빠르게 좁혀왔거든요. 한때는 '오픈 모델은 장난감, 진짜 일은 상용 모델로'라는 인식이 있었는데, 이제는 특정 작업에선 오픈 모델이 더 낫기도 한 시대가 된 거예요. 비용과 통제권까지 따지면 무게추가 더 기울죠.

한국 개발자에게 주는 시사점

현실적으로 와닿는 지점이 많아요. 금융·공공·의료처럼 데이터를 외부로 못 보내는 분야에선 자체 서버에 올릴 수 있는 오픈 모델이 거의 필수인데, 그 오픈 모델의 정확도가 상용 수준이라면 선택의 폭이 확 넓어지거든요. 비용 면에서도 호출마다 돈 나가는 API 대신 자체 호스팅이 장기적으로 유리할 수 있고요.

다만 제가 꼭 강조하고 싶은 건, 리더보드 숫자만 믿지 말라는 거예요. '환각 3배 적음' 같은 헤드라인은 출발점일 뿐, 정말 중요한 건 여러분의 실제 업무 데이터로 직접 평가해보는 거예요. 또 어떤 모델을 쓰든 환각을 근본적으로 줄이려면, 신뢰할 수 있는 자료를 함께 넣어주는 RAG(검색 증강 생성) 같은 기법을 곁들이는 게 정석이고요.

정리하자면

'크고 비싼 모델 = 정답'이라는 공식은 깨지고 있어요. 자유롭게 쓸 수 있는 오픈 모델이 핵심 지표에서 거대 상용 모델을 이기는 장면이 점점 흔해지고 있거든요. 여러분은 지금 어떤 모델을 쓰고 계신가요? 그리고 모델을 고를 때 벤치마크 점수와 '내 데이터로 직접 테스트', 어느 쪽을 더 믿으시나요?

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News 내가 설치한 패키지가 곧 실행되는 스크립트라고? 아치 리눅스 AUR을 노린 공급망 공격

Hacker News 에이지 오브 엠파이어 2 안에 신경망을 심었다고? 게임 트리거로 만든 퍼셉트론 이야기

원문 보기 (Hacker News)

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기

비전공자도 6개월이면 첫 수익
20년 경력 개발자 직강
자동화 프로그램 + 소스코드 제공

이전 글 위성에서 내려다본 GPS 교란의 실체 — 우리가 생각한 것보다 훨씬 넓었어요 다음 글 에이지 오브 엠파이어 2 안에 신경망을 심었다고? 게임 트리거로 만든 퍼셉트론 이야기

목록으로

로그인

추가 정보 입력

회원가입

비밀번호 찾기

더 크면 더 똑똑할까? 거대 모델이 오픈 모델보다 환각을 3배 더 일으킨 이야기

먼저, '환각'이 뭐냐면요

큰 모델이 오히려 더 많이 틀리는 이유

'MIT 라이선스'가 왜 중요한 포인트일까

업계 흐름에서 보면

한국 개발자에게 주는 시사점

정리하자면

AI 도구, 직접 활용해보세요

매일 AI·개발 뉴스를 받아보세요

관련 뉴스

내가 설치한 패키지가 곧 실행되는 스크립트라고? 아치 리눅스 AUR을 노린 공급망 공격

에이지 오브 엠파이어 2 안에 신경망을 심었다고? 게임 트리거로 만든 퍼셉트론 이야기

위성에서 내려다본 GPS 교란의 실체 — 우리가 생각한 것보다 훨씬 넓었어요

기억은 한 곳에 저장되지 않는다 — 뇌과학이 밝혀낸 기억의 정체, 그리고 AI 신경망의 뿌리

git reset이 헷갈린다면? Git의 '세 그루의 나무'만 알면 끝나요

당신의 모니터가 절대 못 보여주는 색이 있어요: 색 영역(gamut) 이야기

잠깐, 이런 뉴스도 있어요!