딥러닝의 심장 '역전파'를 C로 다시 짜보다 — micrograd의 C 버전 microcrad

100줄짜리 딥러닝 엔진을 기억하시나요

딥러닝을 공부하다 보면 한 번쯤 마주치는 전설의 코드가 있어요. 안드레이 카파시(전 테슬라 AI 총괄, OpenAI 창립 멤버)가 만든 micrograd라는 프로젝트인데요. 파이썬 100줄 남짓으로 신경망 학습의 핵심인 '자동 미분(autograd)'을 구현해 보여준 교육용 엔진이에요. 이번에 소개할 microcrad는 바로 이 micrograd를 C 언어로 다시 구현한 프로젝트예요. 파이썬의 편안함을 걷어내고 가장 밑바닥 언어로 내려가 본 거죠.

왜 이게 흥미롭냐면, 우리가 평소 쓰는 파이토치(PyTorch)나 텐서플로 같은 거대한 프레임워크도 결국 핵심 원리는 micrograd와 똑같거든요. 그 심장부를 100줄로, 그리고 다시 C로 들여다본다는 건 딥러닝이 진짜로 어떻게 굴러가는지를 손으로 만져보는 일이에요.

자동 미분이 뭐냐면

신경망 학습은 결국 '지금 답이 얼마나 틀렸나(손실)'를 재고, 그 틀린 정도를 줄이도록 수많은 가중치(weight)를 아주 조금씩 조정하는 과정의 반복이에요. 그런데 어떤 가중치를 어느 방향으로 얼마나 움직여야 손실이 줄어드는지를 알려면 미분값(기울기, gradient)이 필요해요. 변수가 수백만 개인데 이걸 일일이 손으로 미분할 수는 없잖아요.

그래서 등장하는 게 자동 미분이에요. 이게 뭐냐면, 계산을 할 때마다 '이 값은 누구와 누구로부터, 어떤 연산으로 만들어졌는지'를 그래프 형태로 기록해두는 거예요. 예를 들어 c = a * b를 계산하면 c는 자기 부모가 a와 b이고 곱셈으로 태어났다는 족보를 들고 있어요. 이렇게 순방향으로 값을 다 구한 다음(순전파), 마지막 손실값에서 거꾸로 족보를 거슬러 올라가며 연쇄법칙(미분의 곱셈 규칙)으로 각 값의 기울기를 차곡차곡 채워 넣어요. 이 거꾸로 가는 과정이 그 유명한 역전파(backpropagation)예요.

micrograd는 이 모든 걸 Value라는 작은 객체 하나로 표현해요. 값 하나하나가 자기 데이터, 기울기, 부모들, 그리고 '역전파할 때 무엇을 해야 하는지'를 들고 다니는 구조죠.

왜 굳이 C로 다시 짰을까

파이썬에서는 객체가 서로를 참조해도 가비지 컬렉터(안 쓰는 메모리를 알아서 치워주는 청소부)가 알아서 정리해줘요. 그런데 C에는 그런 청소부가 없어요. 그래서 microcrad를 만들려면 그 계산 그래프의 노드들을 직접 malloc으로 할당하고, 다 쓰면 free로 손수 해제해야 해요. 게다가 그래프가 서로 얽혀 있어서 '어떤 순서로 풀어줘야 하는지'까지 신경 써야 하죠.

바로 이 지점이 C로 다시 짜는 진짜 공부 포인트예요. 파이썬이 뒤에서 조용히 대신 해주던 메모리 관리, 동적 배열, 그래프 순회를 전부 내 손으로 구현하게 되거든요. 덤으로 중간 추상화 계층이 사라지니 속도도 빨라지고, 신경망 한 번 학습시키는 동안 메모리에서 실제로 무슨 일이 벌어지는지가 훨씬 선명하게 보여요.

업계 맥락에서 보면

이런 '밑바닥부터 다시 만들기' 흐름은 카파시 본인이 주도해온 면이 커요. micrograd뿐 아니라 GPT를 작게 재현한 nanoGPT, llama.c처럼 거대 모델을 손바닥만 한 코드로 압축해 보여주는 작업들이 줄줄이 나왔죠. tinygrad 같은 프로젝트도 '작지만 진짜 동작하는 딥러닝 프레임워크'라는 같은 정신을 공유하고요. microcrad는 그 계보에서 '교육용 엔진을 더 낮은 언어로' 끌고 내려간 한 걸음이에요. 화려한 신기능은 아니지만, 원리를 투명하게 드러낸다는 점에서 가치가 분명하죠.

한국 개발자에게

요즘은 파이토치 몇 줄이면 모델이 뚝딱 돌아가는 시대라, 정작 loss.backward() 안에서 무슨 일이 벌어지는지는 모르고 지나치기 쉬워요. microcrad나 micrograd를 한 번 따라 짜보면 그 블랙박스가 활짝 열려요. 특히 C에 익숙한 임베디드·시스템 개발자라면 익숙한 언어로 딥러닝의 핵심을 만나는 좋은 입구가 될 수 있고요. 모델을 잘 쓰는 것과 모델이 어떻게 도는지 아는 건 분명 다른 깊이거든요.

핵심은 한 줄로 요약돼요. '역전파는 마법이 아니라, 계산 그래프를 거꾸로 따라가는 연쇄법칙일 뿐이다.' 여러분은 프레임워크 내부 원리까지 파보는 편인가요, 아니면 일단 잘 쓰는 게 먼저라고 보시나요?

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News 브라우저 안에 통째로 부활한 Windows XP — 게임보이와 아이팟까지 돌아가는 포트폴리오