중국 메이투안이 공개한 LongCat-2.0은 전체 1.6조(1.6T) 파라미터 규모의 초대형 MoE(Mixture-of-Experts) 모델이지만, 토큰 하나를 처리할 때 실제로 활성화되는 파라미터는 48B(480억)뿐입니다. 모델 용량은 프런티어급으로 키우되 추론 비용은 중형 모델 수준으로 묶는, 전형적인 '희소 활성화' 전략입니다. 핵심 인사이트는 세 가지입니다. 첫째, 파라미터 총량보다 '활성 파라미터당 성능'이 실질 경쟁력을 가른다는 점. 둘째, 라우팅과 전문가 분배를 잘 설계하면 거대 용량을 GPU 메모리·서빙 단가 폭증 없이 활용할 수 있다는 점. 셋째, 검색·광고·배달 추천처럼 대규모 트래픽을 다루는 기업일수록 '저비용 고용량' MoE가 곧바로 단가 경쟁력으로 이어진다는 점입니다. 한국 IT 종사자에게 시사점은 분명합니다. 모델 도입을 검토할 때 단순 파라미터 숫자가 아니라 활성 파라미터, 토큰당 비용, 서빙 효율을 함께 봐야 한다는 것입니다.