압축은 곧 예측이다: 데이터 압축의 모든 것

Matt Mahoney의 고전적 해설서는 데이터 압축의 본질을 한 문장으로 꿰뚫습니다. "압축은 곧 모델링이자 예측"이라는 것이죠. 다음에 올 데이터를 잘 예측할수록 더 적은 비트로 표현할 수 있고, 이는 정보 이론의 엔트로피 한계와 직결됩니다. 핵심은 두 단계로 나뉩니다. 첫째 모델링(다음 심볼의 확률 예측), 둘째 코딩(확률을 실제 비트로 변환)입니다. 허프만 코딩의 한계를 넘어서는 산술 코딩(arithmetic coding), 반복 패턴을 사전으로 처리하는 LZ77, 데이터를 정렬해 압축성을 끌어올리는 BWT(블록 정렬 변환) 같은 기법이 차례로 등장합니다. 특히 여러 예측 모델의 결과를 신경망처럼 가중 결합하는 컨텍스트 믹싱(context mixing)과 PAQ 계열 압축기는, 압축률과 머신러닝이 본질적으로 같은 문제임을 보여줍니다. 좋은 압축기를 만드는 일이 곧 좋은 예측 모델을 만드는 일이라는 통찰은, LLM 시대를 사는 개발자에게도 흥미로운 시사점을 던집니다. 손실 없는 압축의 이론적 한계는 결국 데이터 안에 숨은 규칙성을 얼마나 잘 학습하느냐에 달려 있습니다.

이 글도 읽어보세요