신나게 AI 도입했더니, 청구서를 보고 정신이 번쩍
불과 1~2년 전만 해도 분위기가 어땠나요? "AI 안 쓰면 뒤처진다"는 공포에 가까운 분위기 속에서 너도나도 ChatGPT 같은 대규모 언어 모델(LLM)을 업무에 욱여넣었잖아요. 고객 상담 챗봇, 코드 자동완성, 문서 요약, 사내 검색까지 안 붙인 곳을 찾기가 어려울 정도였죠.
그런데 요즘 기업들 사이에서 분위기가 묘하게 바뀌고 있어요. 어느 기업 임원이 "우리가 괴물을 만들어버렸다"고 표현했을 만큼, AI 사용량이 통제를 벗어나면서 비용이 예산을 압박하기 시작한 거예요. 무작정 확장하던 단계를 지나, 이제는 "이거 정말 이만큼 돈 들일 가치가 있나?"를 따지는 냉정한 국면으로 접어든 거죠.
왜 비용이 이렇게 불어났을까
핵심은 토큰(token) 기반 과금 구조예요. 이게 뭐냐면, LLM은 글자나 단어를 잘게 쪼갠 '토큰'이라는 단위로 입력과 출력을 계산하고, 그 양만큼 돈을 매겨요. 문제는 사람들이 처음 데모를 볼 때 떠올리는 "질문 한 번, 답변 한 번"이 실제 업무에서는 그렇게 단순하지 않다는 거예요.
특히 요즘 유행하는 에이전트(agent) 방식이 비용의 주범이에요. 에이전트가 뭐냐면, AI가 사람처럼 "생각하고 → 도구를 쓰고 → 결과를 보고 → 다시 생각하는" 과정을 스스로 여러 번 반복하는 구조거든요. 사용자는 질문 하나 던졌는데, 뒤에서는 모델이 수십 번씩 자기 자신을 호출하면서 토큰을 어마어마하게 태우는 거예요. 게다가 답변 품질을 높이려고 관련 문서를 잔뜩 끌어와 프롬프트에 욱여넣는 RAG 방식까지 더해지면, 요청 한 건당 입력 토큰이 폭발적으로 늘어나요. 사용자가 늘수록, 기능이 똑똑해질수록 비용 곡선이 가팔라지는 구조인 거죠.
기업들이 꺼내든 대응책
그래서 기업들이 본격적으로 고삐를 죄기 시작했어요. 첫째는 모델 다이어트예요. 모든 요청에 가장 비싸고 똑똑한 최상위 모델을 쓰던 관행을 버리고, 간단한 작업은 작고 저렴한 모델에 맡기는 거죠. 쉬운 질문은 경차로, 어려운 질문만 고급 세단으로 처리하는 식의 '라우팅'을 도입하는 거예요.
둘째는 캐싱이에요. 똑같은 질문이나 반복되는 긴 프롬프트의 결과를 저장해뒀다가 재사용하면 토큰을 새로 태울 필요가 없거든요. 셋째는 아예 자체 모델을 돌리거나 오픈소스 모델을 직접 호스팅하는 방향이고요. 그리고 가장 근본적인 변화는 AI에도 FinOps를 도입하는 흐름이에요. FinOps가 뭐냐면, 원래 클라우드 비용을 부서별로 추적하고 관리하던 방법론인데, 이걸 AI 토큰 사용량에도 적용하는 거예요. "어느 팀이, 어떤 기능에서, 얼마나 토큰을 쓰는지"를 대시보드로 들여다보면서 새는 돈을 막는 거죠.
업계 흐름에서 보면
사실 이건 새로운 기술이 거치는 전형적인 사이클이에요. 클라우드 초창기에도 똑같았거든요. 다들 "클라우드로 가면 무조건 싸진다"며 우르르 옮겼다가, 청구서 폭탄을 맞고 나서야 비용 최적화와 FinOps라는 분야가 생겨났어요. AI도 지금 딱 그 변곡점에 와 있는 거예요. "AI를 쓰느냐 마느냐"의 질문이 "AI를 어떻게 수지타산 맞게 쓰느냐"로 넘어가는 성숙기에 진입한 거죠. 거품이 꺼진다기보다는, 흥분이 가라앉고 어른의 셈법이 시작됐다고 보는 게 맞아요.
한국 개발자에게 주는 시사점
남 얘기가 아니에요. 사이드 프로젝트나 회사 서비스에 AI API를 붙여본 분이라면, 다음 달 청구서가 슬슬 걱정되기 시작할 거예요. 지금부터라도 챙겨야 할 게 있어요. 우선 로깅과 모니터링부터 붙이세요. 어떤 요청이 토큰을 많이 먹는지 모르면 줄일 수도 없거든요. 그다음엔 "이 작업에 정말 최상위 모델이 필요한가?"를 따져서 모델 등급을 나누고, 프롬프트 캐싱을 적극적으로 활용하세요.
무엇보다 앞으로는 AI 비용 최적화 역량 자체가 경쟁력이 될 거예요. 똑같은 기능을 1/3 비용으로 돌릴 줄 아는 개발자가 회사에서 귀해지는 시대가 오고 있어요. 모델을 잘 쓰는 것만큼이나 '싸게 잘 쓰는' 엔지니어링이 중요해지는 거죠.
마무리
결국 메시지는 분명해요. AI는 공짜 마법이 아니라 정직하게 돈이 나가는 인프라이고, 이제 그 비용을 다스리는 사람이 승자가 된다는 거예요. 여러분은 AI 기능 붙일 때 비용을 어디까지 신경 쓰고 계신가요? 혹시 "이렇게 줄였다"는 노하우가 있다면 댓글로 공유해주세요. 다들 같은 고민 하고 있을 테니까요!
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공