내 노트북의 35B 오픈 모델이 Claude Opus 4.7보다 펠리컨을 잘 그렸다?

펠리컨 벤치마크, 또 한 번 뒤집히다

개발자 커뮤니티에서 LLM 성능을 얘기할 때 종종 등장하는 독특한 테스트가 있어요. 바로 "SVG로 자전거 타는 펠리컨을 그려봐" 벤치마크입니다. Simon Willison이라는 유명 개발자가 만든 건데, 이게 왜 의미가 있냐면요. SVG(벡터 그래픽을 텍스트 코드로 표현하는 포맷)로 그림을 그리려면 모델이 공간 감각, 비율, 구성 요소 간의 관계를 숫자 좌표로 추론해야 하거든요. 단순히 "펠리컨의 특징"을 나열하는 게 아니라, 머릿속에서 장면을 그린 뒤 그걸 수학적 좌표로 옮겨야 합니다. 이게 생각보다 어려워요.

그런데 이번에 Simon이 자기 맥북에서 돌린 Qwen3.6-35B-A3B 모델이 Claude Opus 4.7이 그린 펠리컨보다 더 나은 결과물을 내놨다는 글을 올렸습니다. 로컬에서 돌아가는 오픈 웨이트(open-weight, 모델 가중치가 공개된) 모델이 최상위 클로즈드 소스 모델을 특정 태스크에서 이겼다는 얘기예요.

A3B가 뭔데 그렇게 빠른가요?

모델 이름의 A3B는 "Active 3B"의 약자예요. 전체 파라미터는 35B(350억 개)인데, 추론할 때 실제로 활성화되는 건 3B(30억 개)만이라는 뜻입니다. 이걸 MoE(Mixture of Experts, 전문가 혼합) 구조라고 불러요.

이게 뭐냐면, 모델 안에 여러 명의 "전문가 네트워크"가 들어있고, 입력이 들어올 때마다 라우터(router)라는 작은 모듈이 "이 질문은 수학 전문가한테 보내야겠다" 식으로 일부 전문가만 골라서 쓰는 구조예요. 덕분에 전체 모델은 크지만 매번 전체를 돌릴 필요가 없어서 추론 속도가 빠릅니다. 같은 35B라도 Dense(밀집) 모델보다 훨씬 가볍게 돌아가요.

메모리 관점에서도 유리합니다. 양자화(quantization, 모델 숫자를 더 작은 비트로 압축하는 기법)를 적용하면 MacBook Pro 64GB급에서도 충분히 돌릴 수 있어요. M3 Max 같은 칩은 통합 메모리 구조라 GPU가 CPU 메모리를 그대로 쓸 수 있어서 LLM 추론에 꽤 유리하고요.

오픈 모델이 정말로 프론티어를 따라잡고 있는가

1년 전만 해도 "로컬 LLM은 장난감"이라는 평이 많았어요. 그런데 2025년 한 해 동안 지형이 완전히 바뀌었습니다. Qwen 시리즈, DeepSeek, Llama 후속작, Mistral의 고성능 MoE 라인업이 쏟아지면서 벤치마크상 GPT-4급에 근접하거나 특정 영역에서는 앞서는 오픈 모델이 계속 나오고 있어요.

물론 모든 태스크에서 Claude Opus 4.7이나 GPT-5를 이긴다는 건 아닙니다. 복잡한 추론, 긴 컨텍스트 이해, 도구 사용 같은 영역에서는 여전히 프론티어 모델이 앞서요. 하지만 "쓸만한 품질을 로컬에서 공짜로 돌릴 수 있다"는 라인이 급격히 올라오고 있다는 점이 중요합니다. 펠리컨 사례는 상징적이긴 하지만, 일반화하긴 조심스러워요. 특정 프롬프트 하나에서의 비교니까요.

왜 이게 업계에 중요한가

이 흐름이 갖는 함의는 여러 갈래예요. 먼저 비용 구조가 바뀝니다. API 호출당 돈을 내는 구조에서, 하드웨어 한 번 사면 무제한으로 쓰는 구조로 옮겨갈 수 있어요. 대규모 배치 처리나 민감 데이터 분석에서는 이 차이가 결정적입니다. 두 번째는 프라이버시. 의료, 법률, 금융처럼 데이터 유출이 치명적인 분야에서 온디바이스 LLM은 거의 유일한 현실적 옵션이거든요.

세 번째는 개발자 경험. 비행기 안이나 지하철에서 인터넷 없이도 코드 보조 AI를 쓸 수 있게 되는 거예요. Cursor, Cline 같은 에이전트 도구들도 로컬 모델 지원을 확대하는 추세입니다.

한국 개발자가 지금 해볼 수 있는 것들

당장 시도해볼 수 있는 것들이 꽤 많아요. Ollama나 LM Studio를 설치하면 클릭 몇 번으로 Qwen3.6을 내려받아 돌릴 수 있어요. VRAM이 부족한 노트북이라도 Q4_K_M 같은 양자화 버전을 쓰면 돌아갑니다. 한국어 성능도 Qwen 시리즈가 꽤 좋은 편이에요. 알리바바 계열이라 중국어 중심이긴 하지만 한국어 토큰 처리가 예전보다 많이 개선됐습니다.

실무에서 쓸 때는 프롬프트 캐싱과 컨텍스트 길이를 꼭 확인하세요. 로컬 모델은 보통 컨텍스트가 짧을수록 빠르고 정확해요. 그리고 RAG(검색 증강 생성)처럼 외부 지식을 붙이는 방식으로 보완하면 35B 모델이라도 실제 업무에서 쓸 만한 결과를 낼 수 있습니다.