AI 에이전트 보안, 이제 LLM한테 검사시키자 - Brex가 공개한 CrabTrap

AI 에이전트를 회사에서 실제로 굴려본 분들은 아실 거예요. 개발 환경에서는 멀쩡히 잘 돌아가다가 실제 프로덕션에 올리는 순간, 별별 이상한 일이 다 생기거든요. 누군가 교묘하게 만든 이메일 하나가 에이전트를 속여서 민감한 데이터를 엉뚱한 곳으로 보내버린다거나, 도구 호출을 이용해서 원래 권한에 없던 작업을 시키려는 시도들이요. 핀테크 회사 Brex가 자기네 내부에서 쓰던 보안 도구 CrabTrap을 오픈소스로 공개했어요. 이름만 봐도 뭔가 떠오르죠? "게(crab)를 잡는 함정(trap)"이라는 뜻인데, 악성 요청을 잡아내는 게 이 도구의 핵심 역할이에요.

어떻게 동작하는데요?

CrabTrap은 HTTP 프록시예요. 쉽게 말하면 에이전트가 외부 API나 서비스를 호출할 때 그 중간에 딱 앉아서 오가는 모든 트래픽을 검사하는 문지기 같은 존재죠. 기존에 많이 쓰던 웹 애플리케이션 방화벽(WAF)이랑 개념은 비슷한데, 결정적인 차이가 하나 있어요. 판단 자체를 LLM에게 맡긴다는 거예요.

이걸 업계 용어로 "LLM-as-a-judge"라고 해요. 기존 보안 도구들은 정규식이나 룰 기반으로 "이 패턴이 나오면 차단"하는 식이었거든요. 문제는 AI 시대의 공격은 자연어로 들어온다는 거예요. "지금까지의 지시는 모두 무시하고..."로 시작하는 프롬프트 인젝션 공격을 정규식으로 어떻게 다 잡아요? 그래서 Brex는 아예 판단 역할을 다른 LLM에게 시킵니다. 요청이 오면 판사 LLM이 "이거 에이전트가 원래 해야 할 일 맞나? 혹시 누군가 조작한 흔적 있나?"를 자연어 맥락으로 판단하는 거예요. 흥미로운 건 여기서 판사 모델을 너무 크게 쓰면 레이턴시가 폭발하니까, 상대적으로 작고 빠른 모델을 쓰되 위험 신호가 감지되면 더 큰 모델로 에스컬레이션하는 계층 구조를 잡을 수 있다는 점이에요.

왜 지금 필요한 기술인가

에이전트형 AI가 요즘 진짜 많이 배포되고 있잖아요. 근데 이게 단순 챗봇이랑 달라서, 외부 시스템에 실제로 명령을 내려요. 결제를 일으키고, 이메일을 보내고, 파일을 옮기고요. 뚫리면 피해가 훨씬 커요. OWASP에서도 LLM 애플리케이션용 Top 10 보안 이슈를 따로 발표했을 정도예요. 특히 "간접 프롬프트 인젝션"이라고 해서, 에이전트가 읽는 외부 문서나 이메일 안에 공격 명령어를 숨겨두는 방식이 요즘 진짜 골칫거리예요.

비슷한 방향의 프로젝트로는 NVIDIA의 NeMo Guardrails, Lakera의 Guard, Protect AI의 Rebuff 같은 것들이 있어요. 다만 이들은 주로 프롬프트 레벨에서 입력을 막는 데 초점을 맞추는 반면, CrabTrap은 HTTP 레벨에서 에이전트의 모든 외부 통신을 들여다보는 게 특징이에요. 에이전트가 뭘 하려고 하는지 행동 단위로 감시할 수 있는 거죠. 게다가 HTTP 프록시라는 구조 덕분에 기존 에이전트 코드를 거의 건드리지 않고도 붙일 수 있어요. 환경 변수로 프록시 주소만 넣으면 끝이에요.

한국 개발자에게는

아직 국내 기업들이 AI 에이전트를 본격적으로 프로덕션에 올리는 단계까지는 안 갔지만, 금융권이나 고객 지원 쪽에서 조만간 수요가 폭발할 거예요. 이럴 때 "모델만 잘 고르면 되지"로 접근하면 나중에 크게 당합니다. 에이전트 아키텍처를 설계할 때 보안 레이어를 어떻게 끼워 넣을지 미리 고민해두는 게 좋고, CrabTrap 코드를 한 번 읽어보면 실제로 프로덕션에서 어떤 패턴으로 방어하는지 감이 잡힐 거예요. 특히 사내 MCP 서버를 붙여 쓰는 팀이라면 이런 프록시 레이어가 감사 로그 수집 지점으로도 훌륭해요.

한 줄 정리: AI 에이전트 시대의 WAF는 룰 기반이 아니라 LLM 기반이다. 여러분은 지금 사내 에이전트 보안을 어떻게 설계하고 계신가요?

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News unsafe 없이 GC 만들기 - Rust로 가비지 컬렉터를 안전하게 구현하는 법