갑자기 왜 Ollama를 비판하나
로컬에서 LLM(거대 언어 모델)을 돌려본 분이라면 Ollama라는 이름이 익숙할 거예요. ollama run llama3 한 줄이면 모델이 다운로드되고 바로 실행되는, 정말 편한 도구거든요. 그런데 최근 "Stop Using Ollama"라는 제목의 블로그 글이 올라오면서 로컬 LLM 커뮤니티에서 논쟁이 벌어졌어요. 글쓴이는 단순히 "별로다"가 아니라 구체적인 기술적, 윤리적 이유들을 들어 Ollama를 그만 쓰자고 주장합니다.
핵심 비판은 크게 세 갈래예요. 첫째, Ollama가 사실상 llama.cpp의 래퍼인데 그 사실을 충분히 알리지 않는다는 점. 둘째, 모델 이름을 멋대로 바꿔서 사용자에게 혼란을 준다는 점. 셋째, 오픈소스 생태계의 룰을 잘 안 지킨다는 점입니다.
llama.cpp와의 관계
조금 풀어서 설명할게요. llama.cpp는 게오르기 게르가노프라는 개발자가 만든 C++ 라이브러리예요. CPU만으로도, 또는 일반 노트북 GPU만으로도 거대한 LLM을 돌릴 수 있게 해주는 핵심 엔진이죠. Ollama가 빠르게 성공할 수 있었던 건 이 llama.cpp를 내부에서 그대로 쓰면서 사용자 친화적인 CLI와 API만 얹었기 때문이에요. 문제는 Ollama 홈페이지나 문서 어디에도 "우리는 llama.cpp 위에서 동작합니다"라고 명확히 말하지 않는다는 것. 진짜 무거운 일을 해주는 사람들은 따로 있는데 마치 Ollama가 다 만든 것처럼 보인다는 비판이죠.
두 번째 문제인 모델 이름 짓기도 꽤 심각해요. 예를 들어 사용자가 ollama run deepseek-r1이라고 입력하면 진짜 DeepSeek R1 671B 모델이 받아질 거라고 기대하잖아요? 그런데 실제로는 8B 또는 7B짜리 "증류 모델"이 다운로드돼요. 이건 DeepSeek R1의 출력을 따라 학습시킨, 훨씬 작고 능력이 떨어지는 별도 모델이거든요. 사용자는 "DeepSeek R1을 돌렸는데 생각보다 별로네"라고 오해하게 되고, 결과적으로 원본 모델의 평판에도 영향을 줍니다.
대안은 무엇인가
글쓴이가 추천하는 대안은 크게 두 가지예요. llama.cpp를 직접 쓰기와 LM Studio 같은 다른 프론트엔드 쓰기입니다. llama.cpp는 직접 빌드해야 해서 진입 장벽이 좀 있지만, llama-server라는 명령어로 OpenAI 호환 API 서버를 띄울 수 있고, 모델은 Hugging Face에서 GGUF 파일을 직접 받아 쓰면 돼요. 이렇게 하면 어떤 양자화(quantization, 모델 크기를 줄이는 압축 기법) 버전을 쓰는지 정확히 알 수 있어요.
LM Studio는 GUI가 있어서 훨씬 쉽게 쓸 수 있는데, 이쪽은 클로즈드 소스라는 단점이 있어요. 그 외에도 vLLM, text-generation-webui, KoboldCpp 같은 선택지가 있습니다. vLLM은 서비스 운영용 추론 서버로 처리량(throughput)이 뛰어나고, KoboldCpp는 소설 쓰기나 롤플레이 같은 창작 용도에 강해요.
균형 잡힌 시각
물론 Ollama를 옹호하는 의견도 많아요. "비판은 맞지만 Ollama 덕분에 수많은 사람이 로컬 LLM에 입문했다", "오픈소스 라이선스를 어긴 건 아니다", "편의성도 중요한 가치다" 같은 반론이죠. 이건 사실 오픈소스 생태계에서 반복되는 패턴이에요. 누군가 무거운 핵심 엔진을 만들고, 다른 누군가 사용자 친화적인 래퍼를 만들어 대중화시키는 구조요. 도커도 LXC 위에서 시작했고, GitHub도 Git 위에서 컸으니까요.
한국 개발자에게 주는 시사점
로컬 LLM을 진지하게 다루는 분이라면 이번 기회에 한 번 정리해보면 좋을 것 같아요. 단순히 데모용으로 모델을 돌려보는 거라면 Ollama로 충분합니다. 그런데 사내 RAG 시스템을 만든다거나, 모델 성능을 정확히 평가해야 한다거나, 양자화 정밀도를 컨트롤해야 한다면 llama.cpp나 vLLM을 직접 다루는 쪽이 훨씬 안전해요. 특히 "DeepSeek R1을 도입했는데 성능이 기대만 못하다"는 보고서가 올라간다면, 진짜 R1이 맞는지부터 확인하는 게 첫 단추일 거예요.
마무리
편한 도구는 빠른 입문을 도와주지만, 동시에 우리가 진짜로 무엇을 다루고 있는지 흐릿하게 만들기도 해요.
여러분은 로컬 LLM을 어떤 도구로 돌리고 계신가요? 편의성과 투명성 사이에서 어디까지 타협할 수 있다고 생각하세요?
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공