AI 평가(eval) 스타트업은 왜 자꾸 실패할까

AI가 잘하고 있는지, 누가 채점할까

요즘 챗GPT 같은 대규모 언어 모델(LLM)로 서비스를 만드는 회사가 정말 많아졌죠. 그런데 LLM을 실제 제품에 넣어본 분들은 금방 부딪히는 벽이 있어요. '얘가 지금 일을 제대로 하고 있는 건지 어떻게 알지?'라는 거예요. 같은 질문을 해도 매번 답이 조금씩 다르고, 어떤 답은 그럴듯한데 알고 보면 틀렸고요(흔히 '환각(hallucination)'이라고 하죠).

그래서 등장한 게 '평가(eval)' 분야예요. AI의 출력이 얼마나 정확하고 안전하고 쓸 만한지를 체계적으로 측정하는 거죠. 이게 중요한 문제다 보니, '우리가 AI 평가 도구를 만들어 팔겠다'는 스타트업도 우후죽순 생겼어요. 그런데 토머스 리아오(Thomas Liao)는 이 평가 전문 스타트업들이 왜 자꾸 무너지는지를 짚었어요. 'AI 평가가 중요하지 않아서'가 아니라, '제품으로 팔기엔 구조적으로 어려워서'라는 게 핵심이에요.

왜 이렇게 어려울까

첫 번째 이유는 평가가 너무나 '맞춤형'이라는 점이에요. 이게 무슨 말이냐면, 의료 상담 챗봇이 잘하는 기준과 쇼핑몰 추천 봇이 잘하는 기준은 완전히 다르거든요. 한쪽은 '의학적으로 정확하고 위험한 조언을 안 하는 것'이 중요하고, 다른 쪽은 '고객이 실제로 구매로 이어지는 것'이 중요하죠. 그러니 모두에게 두루 쓰이는 범용 평가 도구를 만들면, 정작 어느 회사에도 딱 들어맞지 않는 애매한 물건이 돼버려요.

두 번째는 '정답 데이터(ground truth)' 문제예요. 어떤 답이 좋은 답인지 채점하려면 기준이 되는 정답이 있어야 하잖아요. 그런데 이 정답을 만드는 일 자체가 엄청나게 비싸고 손이 많이 가요. 결국 그 도메인을 가장 잘 아는 건 그 회사의 직원들이라, 평가 기준을 외부 도구에 맡기기보다 자기들이 직접 만드는 게 낫다는 결론에 이르죠.

세 번째는 '기능이지 제품이 아니다'라는 점이에요. 이게 평가 스타트업의 가장 아픈 지점인데요. AI 평가는 보통 독립적으로 쓰이기보다, 모델을 모니터링하고 배포하는 더 큰 개발 플랫폼의 한 부분으로 흡수돼버려요. 그래서 평가 기능 하나만 떼어 파는 회사는, 더 넓은 도구를 가진 큰 플랫폼(예를 들면 LLM 관측·운영 도구들)에 금세 잡아먹히는 거죠. 실리콘밸리에서 흔히 말하는 '그건 제품이 아니라 기능일 뿐이야(It's a feature, not a product)'라는 함정에 빠지는 거예요.

게다가 표적이 계속 움직인다

평가가 어려운 또 하나의 이유는, 측정 대상인 AI 모델 자체가 너무 빨리 변한다는 거예요. 몇 달마다 새 모델이 나오고, 예전엔 모델이 못 풀던 문제를 갑자기 척척 풀어버려요. 그러면 공들여 만든 평가 기준이 순식간에 낡아버리죠. 평가 도구를 파는 입장에서는, 팔 물건의 토대가 계속 흔들리는 셈이에요.

또 '좋은 평가가 뭔지' 구매하는 쪽도 잘 모른다는 점도 있어요. 보안 도구처럼 '없으면 큰일 나는' 명확한 공포가 있는 것도 아니고, 매출처럼 숫자로 바로 증명되는 것도 아니라서, 돈을 내고 살 만큼의 가치를 설득하기가 까다롭거든요.

업계 맥락에서

비슷한 패턴을 우리는 이미 본 적이 있어요. 한때 독립 제품이었다가 결국 더 큰 플랫폼의 기능으로 흡수된 분야들이 많죠. 평가도 LangSmith, Weights & Biases, 각종 LLM 옵저버빌리티(관측) 도구들이 자기 플랫폼 안에 평가 기능을 기본 탑재하는 방향으로 가고 있어요. 순수하게 평가만 파는 회사가 설 자리가 점점 좁아지는 거예요.

한국 개발자에게

LLM 제품을 만드는 분이라면 여기서 두 가지를 챙길 수 있어요. 첫째, '평가는 외부 도구에 통째로 맡기기보다, 우리 도메인에 맞는 평가 기준을 우리가 직접 만드는 게 핵심'이라는 교훈이에요. 우리 서비스에서 '좋은 답'이 뭔지는 결국 우리가 가장 잘 아니까요. 작게라도 우리만의 평가셋(테스트 케이스 모음)을 꾸준히 쌓아두는 게 장기적으로 큰 힘이 돼요.

둘째, 창업을 꿈꾸는 분이라면 '이게 독립 제품인가, 아니면 더 큰 무언가의 기능인가'를 냉정하게 따져보는 안목을 배울 수 있어요. 아무리 중요한 문제라도, 더 큰 플랫폼에 쉽게 흡수되는 자리라면 사업으로 키우기 어렵거든요.

정리하면, 'AI 평가는 누구에게나 중요하지만, 바로 그 보편성 때문에 독립된 사업으로 살아남기는 어렵다'는 역설적인 이야기예요.

여러분은 자기 AI 서비스가 제대로 동작하는지 지금 어떻게 확인하고 계세요? 직접 만든 평가 기준이 있으신가요, 아니면 그냥 감으로 판단하고 계신가요?

🔗 출처: Hacker News

이 글도 읽어보세요