Tiny-vLLM: C++와 CUDA로 직접 짠 가벼운 LLM 추론 엔진
## vLLM의 미니어처 버전이 등장했어요 LLM을 직접 서빙해본 분들이라면 **vLLM**이라는 이름을 한번쯤 들어보셨을 거예요. UC Berkeley에서 시작된 오픈소스 프로젝트인데, GPU 메모리를 효율적으로 관리해서 LLM을 빠르게 돌릴 ...
MCP은 정말 끝났을까? AI 에이전트 통합의 현실과 한계
## 갑자기 'MCP는 죽었다'라는 말이 나온 이유 작년부터 AI 개발자 사이에서 가장 뜨거웠던 단어 중 하나가 바로 **MCP(Model Context Protocol)** 였어요. Anthropic이 공개한 이 프로토콜은 "AI 에이전트가 외...
"계속할까요? Y/N"에 지친 당신에게 — AI 에이전트 '권한 피로' 이야기
## "계속할까요? Y/N" — 어디서 많이 본 장면이죠? 요즘 AI 코딩 에이전트, 한 번쯤 써보셨을 거예요. Claude Code나 Cursor 같은 도구한테 "이 기능 만들어줘" 하고 시키면 알아서 코드를 짜주는데요. 그런데 막상 옆에서 지...
AI가 짜준 코드에서 나는 '냄새들' — LLM 시대의 새로운 코드 리뷰 체크리스트
## 코드에서 '냄새'가 난다는 말, 들어보셨나요 개발 바닥에는 '코드 스멜(code smell)'이라는 말이 있어요. 이게 뭐냐면, 코드가 당장 고장 난 건 아닌데 '어... 이거 뭔가 좀 이상한데? 나중에 문제 생기겠는데?' 하는 찜찜한 신호...
테크 뉴스를 읽는 당신,
직접 만들어볼 준비 되셨나요?
17가지 수익 모델 실습 · 144+ 강의 · 자동화 소스코드 제공
AI한테 팩트체크 맡기면 안 되는 이유: 최신 모델 5개, 사실 판단의 67%가 엇갈렸다
## 같은 사실을 물었더니 AI들이 서로 다른 답을 했어요 요즘은 뭔가 궁금하거나 의심스러운 정보가 있으면 챗봇한테 '이거 사실이야?'라고 물어보는 게 일상이 됐죠. 답이 워낙 그럴듯하게 나오니까 우리도 모르게 'AI가 그렇다면 맞겠지' 하고 넘...
AI한테 '제발 부탁해요'라고 하면 더 똑똑해질까? 프롬프트 예의와 정확도 연구
## 무슨 일이냐면요 다들 한 번쯤 챗봇한테 "부탁드려요", "감사합니다" 같은 말을 붙여본 적 있으시죠? 막연하게 "공손하게 말하면 답을 더 잘해주지 않을까" 하는 기대가 있잖아요. 2025년에 나온 한 연구가 바로 이 질문을 정면으로 파고들었...
테크 CEO들이 'AI 정신증'에 걸렸다는 진단, 진짜 무슨 일일까
## CEO들이 이상해졌다는 말이 나오는 이유 최근 실리콘밸리에서 이상한 단어가 돌아다니고 있어요. 바로 **"AI 정신증(AI psychosis)"**이라는 표현이에요. 정신과학에서 정식으로 인정한 진단명은 아니고, 일종의 비유적 표현으로 쓰이...
여러 AI가 협력해서 보안 취약점을 자동으로 찾아내는 시스템이 등장했어요
## AI가 해커처럼 일하기 시작했어요 보안 분야에서 "취약점을 찾는다"는 건 정말 어려운 일이에요. 코드 수십만 줄, 수백만 줄을 사람이 일일이 읽으면서 "여기서 메모리가 잘못 쓰일 수 있겠는데?" 같은 판단을 내려야 하거든요. 그래서 보안 연...
마틴 파울러가 짚은 '바이브섹' - AI 코딩 시대, 보안 청구서가 날아온다
## 바이브 코딩이 만든 보안 청구서 요즘 개발자들 사이에서 "바이브 코딩(Vibe Coding)"이라는 말, 한 번쯤 들어보셨을 거예요. OpenAI 출신 안드레이 카파시가 던진 표현인데요, AI한테 "이런 기능 만들어줘" 하고 던지면 코드가 술술...
인류의 모든 요리법을 2MB로 압축한다 - 데이터 압축의 흥미로운 실험
## 2MB 안에 들어가는 인류의 부엌 "인류가 만든 모든 요리를 2메가바이트로 압축한다"라니, 제목부터 황당하게 들리죠? 그런데 이건 농담이 아니라 실제 학술 논문의 주장이에요. 연구자들은 전 세계 요리 데이터베이스를 모으고, 그 안의 패턴을 ...
GPU 행렬 곱셈이 '예측 가능한 데이터'에서 더 빨라지는 이상한 현상
## 같은 연산인데 데이터에 따라 속도가 달라진다? 행렬 곱셈(matrix multiplication, 줄여서 matmul)은 딥러닝의 심장 같은 연산이에요. GPT든 Stable Diffusion이든 결국 내부에서는 거대한 행렬을 계속 곱하고 ...
다음 토큰 예측, 정말 지능의 끝까지 갈 수 있을까: LLM의 본질을 다시 묻는 글
## "그냥 다음 단어 맞히는 거잖아"라는 말, 정말 맞을까 ChatGPT가 나온 뒤로 가장 많이 들은 표현 중 하나가 "LLM은 결국 다음 토큰을 예측하는 모델이다"라는 말이에요. 토큰(token)이란 게 뭐냐면, 모델이 글자를 처리하는 최소 단위...
에린 브로코비치가 데이터센터 지도를 만든 이유, AI 시대의 환경 부담
## 환경운동가가 왜 데이터센터를? 에린 브로코비치(Erin Brockovich)라는 이름, 들어보셨나요? 줄리아 로버츠가 주연한 동명의 영화로 유명해진, 미국의 전설적인 환경 운동가예요. 1990년대 캘리포니아 힝클리(Hinkley)에서 PG&E가...
샤오미 MiMo-v2.5 가격 99% 인하, AI API 가격 전쟁의 다음 라운드
## 99% 인하라는 충격적인 헤드라인 샤오미가 자체 개발한 AI 모델 **MiMo-v2.5**의 API 가격을 무려 **99% 인하**한다고 발표했어요. 숫자만 보면 "오타 아니야?" 싶지만, 실제로 중국 AI 업계에서 이런 가격 인하는 이제 ...
프론티어 AI는 너무 비싸다: 로컬 AI + 외주 조합이 곧 더 경제적이 된다는 주장
## GPT-5, Claude Opus를 매일 쓰는 비용, 정말 감당 가능할까? 요즘 개발자라면 누구나 한 번쯤 고민해본 문제일 거예요. OpenAI, Anthropic, Google의 최상위 모델들을 API로 쓰면 성능은 정말 좋은데, 토큰당 단가...
LLM 추론을 더 빠르게: EAGLE 3.1과 vLLM의 합작, Speculative Decoding의 진화
## LLM이 느린 진짜 이유부터 짚어볼게요 요즘 ChatGPT나 Claude를 쓰면 답변이 한 글자씩 또르륵 나오죠? 그게 그냥 연출이 아니라, 실제로 LLM이 토큰(token, 단어 조각)을 하나씩 차례대로 만들어내는 과정이에요. 이걸 **자...
LLM은 "심심한 언어"를 좋아한다 — Rust 대신 Python을 고르는 이유
## AI가 짜는 코드, 왜 언어마다 품질이 다를까 Claude나 GPT한테 같은 기능을 Python으로 짜달라고 했을 때와 Rust로 짜달라고 했을 때, 결과물의 안정성이 꽤 다르다는 걸 느껴본 분 많으실 거예요. Python 코드는 거의 바로...
"사용자가 짜증난 것 같네요" — AI가 던지는 가장 짜증나는 한마디
## 에러 메시지가 나를 위로하려고 한다 VS Code에서 코드를 짜다가 자동완성이 이상하게 작동했어요. 한 번 무시하고 다시 시도해도 또 이상한 답이 나오고, 세 번째쯤 되니까 슬슬 화가 나기 시작했는데, 그 순간 화면 구석에 메시지가 떴어요. "...
"요약해줘" 한마디에 회사 파일이 새어나간다, Microsoft Copilot Cowork 취약점 파헤치기
## 회사 데이터를 노리는 새로운 공격면 기업들이 Microsoft 365 Copilot을 도입하면서 한 가지 큰 매력 포인트가 있었어요. AI가 내 메일함, OneDrive, SharePoint를 다 들여다보면서 비서처럼 일해주는 거죠. "지난주 ...
유튜브 영상도 내 컴퓨터에서 요약하는 시대, OpenBrief 살펴보기
## 영상 요약, 왜 굳이 로컬에서? 긴 유튜브 강의나 컨퍼런스 영상을 다 볼 시간이 없을 때, 요즘은 AI한테 요약을 맡기는 분들이 많아졌어요. 다만 대부분의 영상 요약 서비스는 클라우드 기반이에요. 영상 링크를 입력하면 서버에서 다운로드하고,...