엔비디아 천하에서 Groq는 어떻게 계속 투자금을 끌어모을까 — 추론 전용칩 LPU 이야기

AI 칩 = 엔비디아? 그 공식에 도전하는 회사

요즘 AI 얘기 나오면 칩은 무조건 엔비디아(NVIDIA) GPU잖아요. 학습이든 추론이든 다 엔비디아로 돌리는 게 거의 기본값이 됐죠. 그런데 여기에 정면으로 다른 길을 파고드는 회사가 있어요. 바로 Groq(그록) 인데요. 일론 머스크 xAI의 챗봇 'Grok'이랑 이름이 비슷해서 헷갈리기 딱 좋은데, 둘은 전혀 다른 회사예요. Groq 쪽이 훨씬 먼저 생겼고요(2016년 설립). 창업자 조나단 로스(Jonathan Ross)는 구글에서 AI 학습용 칩인 TPU를 처음 만든 핵심 인물이거든요. 그러니까 '칩 좀 만들어 본 사람'이 차린 회사인 거죠.

핵심 질문은 이거예요. 엔비디아가 시장을 거의 다 먹은 상황에서, Groq는 도대체 무슨 매력으로 계속 큰돈을 투자받고 있을까?

LPU가 뭐길래 — GPU랑 뭐가 다른데?

Groq의 무기는 LPU(Language Processing Unit) 라는 자체 칩이에요. 이게 뭐냐면, GPU가 '뭐든 다 잘하는 만능 일꾼'이라면 LPU는 '딱 한 가지, 이미 학습된 모델이 답을 토해내는 추론(inference) 작업만 미친 듯이 빠르게 하는 전문가'라고 보면 돼요.

비유하자면 GPU는 주방 전체를 다루는 만능 셰프인데, 주문이 들어올 때마다 '재료가 냉장고(메모리) 어디 있더라' 하고 왔다 갔다 하느라 시간이 좀 걸려요. 반면 LPU는 자주 쓰는 재료를 전부 도마 바로 옆 작은 선반(칩 안의 SRAM이라는 초고속 메모리)에 미리 깔아두고, 정해진 동선으로 착착 처리해요. 그래서 GPU가 흔히 쓰는 외부 고속 메모리(HBM)를 안 쓰고, 처리 순서도 완전히 예측 가능하게(deterministic) 설계돼 있어요. 이 구조 덕분에 LLM이 글자를 한 글자씩 뱉어내는 속도, 즉 초당 토큰 생성 속도가 굉장히 빨라요. 같은 모델을 돌려도 첫 글자가 튀어나오는 반응 속도와 쏟아내는 속도가 체감될 만큼 차이가 나죠.

다만 단점도 분명해요. 칩 하나에 들어가는 메모리가 작다 보니 큰 모델 하나를 돌리려면 칩을 수십, 수백 개 묶어야 해요. 그래서 '칩 한 장 성능은 좋은데 시스템 전체로 보면 정말 더 싸냐'를 두고 의견이 갈리는 거예요.

그래서 돈은 어떻게 계속 모으나

Groq는 칩을 직접 파는 대신 GroqCloud라는 클라우드 추론 서비스로 방향을 틀었어요. 개발자가 API로 모델을 빠르게 호출해 쓰게 해주는 거죠. 2024년엔 블랙록(BlackRock)이 주도한 대형 투자를 받았고, 이후에도 중동 자본(사우디 쪽 대규모 인프라 계약 포함)을 끌어들이며 추가 라운드를 이어가고 있어요.

투자자들이 베팅하는 논리는 명확해요. 지금까지 AI 칩 수요는 '학습'에 쏠려 있었는데, 앞으로는 '추론' 수요가 폭발한다는 거예요. 모델을 한 번 만들면 그 뒤로는 수억, 수십억 번 답변을 생성하니까요. 학습은 한 번이지만 추론은 영원하잖아요. 이 추론 시장에서 '속도와 단가'로 차별화하겠다는 게 Groq의 승부수고, 투자자들은 그 가능성에 돈을 거는 거죠. 반대로 회의적인 시각은 '엄청난 설비투자(칩을 데이터센터 가득 깔아야 하니까)를 감당할 만큼 실제 수익이 나오느냐'를 의심해요.

업계 지형 속 위치

추론 전용·대체 칩을 노리는 곳은 Groq뿐만이 아니에요. 거대한 단일 칩(웨이퍼 스케일)으로 유명한 Cerebras, 데이터센터용 추론 칩을 미는 SambaNova, 그리고 구글의 TPU, 아마존의 Inferentia/Trainium 같은 빅테크 자체 칩들도 다 같은 파이를 노려요. 엔비디아라는 거인이 버티는 가운데, 다들 '학습은 못 이겨도 추론은 우리가 더 싸고 빠르다'는 포지션으로 비집고 들어가는 모양새죠.

한국 개발자에게 주는 시사점

실무 관점에서 핵심은 추론 속도(latency)가 곧 사용자 경험이자 비용이라는 점이에요. 챗봇, 실시간 코드 어시스턴트, 음성 에이전트처럼 '답이 빨리 나와야 하는' 서비스를 만든다면, 이제는 'GPU 한 종류'만 보지 말고 추론 단가와 응답 속도를 기준으로 여러 제공자를 비교하는 습관을 들이는 게 좋아요. 다행히 이런 서비스들은 대부분 OpenAI 호환 API 형태라서, 백엔드만 바꿔 끼워 벤치마크해 보는 게 어렵지 않거든요. 직접 칩을 살 일은 없어도, '추론 인프라가 다양해지고 있다'는 흐름은 비용 설계에 직접 영향을 줘요.

마무리

결국 Groq 이야기는 'AI의 무게중심이 학습에서 추론으로 옮겨가고 있다'는 신호예요. 여러분이라면 실시간성이 중요한 서비스를 만들 때, 익숙한 엔비디아 대신 더 빠른 추론 전용 인프라로 갈아탈 의향이 있으신가요? 속도와 안정성(생태계 성숙도) 중 무엇을 더 중요하게 보시나요?

🔗 출처: Hacker News

이 글도 읽어보세요