처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.07.04 34

코드를 이미지로 바꿔서 LLM에 넣었더니 비용이 60% 줄었다고요?

Hacker News 원문 보기
코드를 이미지로 바꿔서 LLM에 넣었더니 비용이 60% 줄었다고요?

코드를 '읽게' 하지 말고 '보게' 하라고요?

LLM API를 실무에서 써본 분이라면 다들 비용 고지서 앞에서 한숨 쉬어본 경험이 있을 거예요. 특히 코드베이스를 통째로 컨텍스트에 넣어야 하는 코딩 어시스턴트 쪽은 입력 토큰 비용이 상당하거든요. 그런데 이 비용을 아주 엉뚱한 방법으로 줄인 오픈소스 도구가 나왔어요. pxpipe라는 프로젝트인데요, 코드를 텍스트로 모델에 넣는 대신 이미지로 렌더링해서 비전 모델에게 '보여주고' OCR 하듯 읽게 하는 방식으로, Claude Fable 기준 비용을 60% 줄였다고 해요. 처음 들으면 무슨 소리인가 싶은데, 원리를 알고 나면 꽤 그럴듯한 접근이에요.

토큰이 뭐길래 이런 꼼수가 통하냐면요

LLM은 글을 통째로 읽는 게 아니라 '토큰'이라는 조각 단위로 잘라서 처리하고, API 요금도 이 토큰 개수로 매겨져요. 그런데 코드는 토큰 효율이 유난히 나쁜 텍스트거든요. 들여쓰기 공백, 중괄호, 세미콜론 같은 특수문자가 잔뜩 있고, someVeryLongVariableName 같은 변수명은 여러 토큰으로 쪼개지니까요. 반면 이미지 입력은 과금 방식이 달라요. 모델은 이미지를 일정한 크기의 조각(패치)으로 잘라서 처리하는데, 이미지 한 장의 토큰 수는 해상도에 따라 정해지지 그 안에 글자가 몇 개 들었는지와는 무관해요. 그러니까 이미지 한 장에 코드 수십 줄을 빽빽하게 담으면, 글자당 비용이 텍스트로 넣을 때보다 싸지는 구간이 생기는 거예요. 최신 모델들의 이미지 속 글자 인식 능력이 사실상 OCR 수준으로 좋아진 덕분에 가능해진 발상이죠.

사실 이 아이디어, 연구 쪽에서 먼저 나왔어요

이게 완전히 새로운 발상은 아니에요. DeepSeek이 발표했던 DeepSeek-OCR 연구가 바로 이 '광학 압축(optical compression)' 개념을 다뤘거든요. 텍스트를 이미지로 바꾸면 같은 내용을 훨씬 적은 비전 토큰으로 표현할 수 있고, 이걸 긴 컨텍스트를 압축하는 수단으로 쓸 수 있다는 내용이었어요. 당시엔 '언젠가 컨텍스트 길이 문제를 풀 열쇠가 될지도 모른다'는 연구 이야기였는데, pxpipe는 그 아이디어를 상용 API 요금 절감이라는 아주 실용적인 문제에 바로 적용해본 셈이에요. 논문 속 아이디어가 얼마 지나지 않아 깃허브의 비용 절감 도구로 나온 거죠.

물론 공짜 점심은 아니에요

다만 프로덕션에 넣기 전에 따져볼 게 많아요. 첫째는 정확도예요. 소설이라면 글자 하나 잘못 읽어도 큰일이 아니지만, 코드에서 소문자 l과 숫자 1, 대문자 O와 숫자 0을 헷갈리면 그대로 버그가 되거든요. 렌더링에 쓰는 폰트나 해상도에 따라 인식률이 달라질 수도 있고요. 둘째는 프롬프트 캐싱과의 궁합이에요. 같은 컨텍스트를 반복해서 보내는 상황이라면 캐싱 할인을 받는 텍스트 입력이 오히려 더 쌀 수 있어요. 셋째, 모델이 이미지 속 코드를 다루는 능력이 텍스트로 받았을 때와 완전히 같다는 보장이 없다는 점이에요. 특정 줄을 정확히 인용하거나 수정해야 하는 작업에서는 품질이 떨어질 가능성을 열어둬야 해요. 60%라는 숫자만 보고 덥석 도입하기보다는, 내 작업 유형에서 답변 품질이 유지되는지 먼저 확인해야 하는 이유죠.

한국 개발자에게: 실험해볼 가치는 충분해요

LLM 비용 절감 수단은 이미 여럿 있어요. 반복되는 컨텍스트는 프롬프트 캐싱으로 처리하고, 단순한 작업은 작은 모델로 라우팅하고, 불필요한 컨텍스트는 애초에 잘라내는 식이죠. 이미지 변환은 여기에 추가된 새로운 카드 하나로 보시면 돼요. 대량의 문서나 코드를 모델에 넣는 파이프라인을 운영 중이라면, 일부 트래픽으로 품질 비교 실험을 돌려볼 만해요. 특히 '내용을 참고만 하면 되는' 배경 컨텍스트에는 잘 맞고, 정밀한 편집 대상에는 텍스트를 유지하는 식으로 섞어 쓰는 전략도 가능하고요.

정리하면

토큰 과금 구조의 틈새를 파고들어, 코드를 이미지로 바꿔 넣는 것만으로 API 비용을 크게 줄일 수 있다는 걸 보여준 프로젝트예요. 여러분의 서비스에서는 LLM 비용을 어떻게 줄이고 계세요? 이런 이미지 변환 방식, 프로덕션에서 믿고 쓸 수 있을 거라고 보시나요?


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.