GPU 한 장에 올리는 플래그십 코딩 모델, Qwen3.6-27B가 나왔어요

또 한 판 붙은 오픈소스 코딩 LLM

오픈소스 코딩 모델 경쟁이 한여름 장마처럼 쏟아지고 있어요. 이번엔 알리바바의 Qwen 팀이 Qwen3.6-27B라는 신작을 내놨는데요. 이름에서 보이듯 270억 파라미터급이고, 요즘 대세인 MoE(Mixture of Experts, 전문가 혼합)가 아니라 밀집(dense) 모델이에요. 모두가 MoE로 가는 와중에 일부러 밀집 쪽으로 돌아와서 "플래그십급 코딩 성능"을 주장한다는 점이 흥미롭습니다.

왜 굳이 밀집 모델이냐

MoE가 뭐냐면, 모델 내부에 여러 명의 "전문가" 서브모듈을 두고 입력에 따라 일부만 활성화해서 연산량을 줄이는 구조예요. 총 파라미터는 크지만 한 번에 쓰는 건 일부라서, 같은 추론 비용으로 더 큰 모델의 성능을 낼 수 있어요. 딥시크(DeepSeek) V3, 미스트랄의 Mixtral 같은 게 대표적이죠.

대신 단점도 있어요. 라우팅 로직이 복잡하고, 전문가 간 로드 밸런싱이 안 맞으면 성능이 들쑥날쑥하고, 배포할 때 인프라 요구사항이 까다로워요. 반면 27B 밀집 모델은 단순해요. 모든 파라미터가 매번 활성화되니 성능이 일관적이고, vLLM이나 TGI 같은 일반 서빙 프레임워크에 그냥 올리면 돼요. 4bit 양자화 시 VRAM 20GB 안팎 — 즉 RTX 4090 한 장, 혹은 M3 Max 64GB Mac에 올라간다는 뜻이에요.

성능은 어느 정도일까

Qwen 팀이 공개한 벤치마크를 보면, SWE-bench Verified(실제 오픈소스 레포의 이슈를 모델이 해결하는 평가)나 LiveCodeBench 같은 실사용 코딩 지표에서 동급 오픈소스들(DeepSeek-Coder-V2, Llama 3.3 70B 등)을 앞섰다고 주장해요. 단순한 함수 작성이 아니라 에이전틱 코딩, 즉 레포지토리 전체를 읽고 여러 파일을 협업하듯 수정하는 태스크에서 특히 강점을 보였다고 해요.

또 하나 주목할 점은 128K 컨텍스트 윈도우를 네이티브로 지원한다는 거예요. 중간 규모 코드베이스(10만 줄 내외)를 한 프롬프트에 통째로 넣고 "이 버그 고쳐봐"를 시킬 수 있다는 뜻이죠. 내부 구조는 GQA(Grouped Query Attention)를 써서 추론 메모리를 아끼고, 학습 단계에선 코드 실행 결과를 피드백으로 활용하는 강화학습을 강하게 돌렸다고 블로그에 적혀 있어요.

업계 지형에서의 위치

코딩 특화 오픈소스 시장은 지금 3파전 양상이에요. 딥시크는 MoE로 초고성능을 치고 나가고, 미스트랄의 Codestral 계열은 유럽발 대안으로 자리 잡았고, Qwen은 중국어/영어 이중 강점과 가성비로 밀고 있어요. 폐쇄형 쪽에선 클로드 소네트 4.6과 GPT-5가 기준점을 형성하고 있죠. 구글의 Gemma 27B가 같은 체급의 밀집 모델인데, Qwen3.6-27B는 직접적인 비교 대상이 됩니다.

한마디로 Qwen3.6-27B의 포지션은 "GPU 한 장에 올려 로컬에서 돌릴 수 있는 수준에서의 최고봉"을 노리는 지점이에요.

한국 개발자 입장에서의 활용 포인트

실무에서 "사내 데이터가 외부로 나가면 안 되는" 금융, 공공, 의료, 방산 도메인이라면 이런 로컬 실행 가능한 고성능 모델은 정말 반가워요. vLLM이나 Ollama로 올려 사내용 Cursor 스타일 환경을 꾸릴 수 있거든요. 특히 Qwen 계열은 전통적으로 한국어-코드 혼합 프롬프트 (주석은 한글, 코드는 영어) 처리가 자연스러운 편이라, 번역 레이어 없이 바로 붙여도 품질이 안정적이에요.

개인 개발자 입장에서도 RTX 4090이나 M3 Max 이상 Mac을 가지고 있다면 ollama pull로 한 줄에 받아서 써볼 수 있는 체급이에요. 온프레미스 코드 리뷰 봇이나 사이드 프로젝트용 AI 페어프로그래머를 공짜로 운영할 기회죠. 다만 벤치마크 숫자는 어디까지나 팀이 발표한 것이니, 본인 코드베이스에 직접 붙여보고 평가하는 게 중요해요.