구글이 2026년 5월 5일 Google Developers Blog 게시글 “Accelerating Gemma 4: faster inference with multi-token prediction drafters”에서 Gemma 4 모델군용 MTP(Multi-Token Prediction) 드래프터 가중치를 공개했습니다. 본 글은 해당 발표문의 핵심 메커니즘을 정리하고, Gemma 4 추론을 자체 운영 중이거나 도입을 검토하는 한국 팀이 점검할 항목을 다룹니다.

참고 환경: 본 글의 수치·동작 원리는 모두 위 Google Developers Blog 발표문(2026년 5월 5일 기준)을 따릅니다. 발표문에 등장하는 검증 환경은 NVIDIA RTX PRO 6000, Apple Silicon, Nvidia A100입니다.
1. 무엇이 공개되었는가
Google Developers Blog 발표문에 따르면 Gemma 4 패밀리에 대응하는 MTP 드래프터 가중치가 Gemma 4 본체와 동일한 Apache 2.0 라이선스로 같은 날 공개되었습니다. 발표문 본문은 Gemma 4가 출시 후 몇 주 만에 6,000만 회 이상 다운로드되었다고 밝히며, 이번 드래프터 공개를 효율 측면의 후속 단계로 정의합니다.
- 배포 채널: Hugging Face, Kaggle, Google AI Edge Gallery(Android·iOS).
- 지원 런타임·프레임워크: LiteRT-LM, MLX, Hugging Face Transformers, vLLM, SGLang, Ollama.
- 라이선스: Apache 2.0(Gemma 4 본체와 동일).
2. 표준 LLM 추론이 느린 이유
발표문은 표준 LLM 추론을 “memory-bandwidth bound” 문제로 정의합니다. 토큰 한 개를 생성하기 위해 수십억 개의 파라미터를 VRAM에서 연산 유닛으로 옮기는 데 시간 대부분이 쓰이며, 그 동안 컴퓨트는 미사용 상태가 됩니다. 발표문 표현대로 소비자급 하드웨어일수록 이 병목이 두드러진다고 명시됩니다.
또 하나의 비효율은 자기회귀(autoregressive) 생성 자체에서 옵니다. 같은 발표문은 “Actions speak louder than___” 같이 다음 토큰이 거의 자명한 경우와, 복잡한 논리 추론을 풀 때가 동일한 연산량을 사용한다고 지적합니다. 토큰 난이도 분포는 균등하지 않은데 비용 구조는 균등하다는 점이 가속의 여지를 만듭니다.
3. speculative decoding과 MTP 드래프터의 동작

MTP 드래프터는 추측 디코딩(speculative decoding) 기법을 응용합니다. Google Developers Blog 발표문은 이 기법이 같은 회사의 논문 “Fast Inference from Transformers via Speculative Decoding”에서 도입되었다고 명시합니다.
발표문 기준 실행 흐름은 다음과 같습니다.
- 무거운 타깃 모델(예: Gemma 4 31B)에 가벼운 드래프터(MTP 모델)를 짝지웁니다.
- 드래프터는 타깃 모델이 토큰 한 개를 처리하는 시간보다 짧은 시간 안에 미래 토큰 여러 개를 한꺼번에 예측합니다.
- 타깃 모델은 드래프터의 예측 시퀀스를 한 번의 forward pass로 병렬 검증합니다.
- 드래프트가 수용되면 그 시퀀스 전체에 더해 타깃 모델 자체 토큰 한 개까지 같은 단계 안에서 출력에 추가됩니다.
발표문 표현 그대로 “the full drafted sequence plus one token in the time it usually takes to generate a single one”입니다. 평소 토큰 한 개를 만드는 데 걸리는 시간 안에 드래프트 시퀀스 전체와 추가 토큰 한 개를 함께 산출한다는 뜻입니다.
4. 아키텍처 세부: KV 캐시 공유와 임베더 클러스터링
4-1. KV 캐시 공유
발표문에 따르면 MTP 드래프터는 타깃 모델의 activation과 KV 캐시를 그대로 재사용합니다. 큰 모델이 이미 계산한 컨텍스트를 드래프터가 다시 계산하지 않으므로 드래프트 비용을 추가로 줄일 수 있다는 설명입니다.
4-2. 임베더 단계 효율 최적화
발표문 기준 edge용 E2B와 E4B 모델에서는 마지막 logit 계산이 큰 병목으로 지목됩니다. Google Developers Blog 발표문은 이 구간에 임베더 단계의 효율적 클러스터링 기법을 적용해 추가 가속을 얻었다고 밝힙니다. 정확한 수치는 모델별 시각화 자료가 후속 기술 문서에 게재된다고 안내됩니다.
5. 하드웨어별 측정 결과
Google Developers Blog 발표문 기준 주요 측정 결과는 다음과 같습니다. 같은 발표문은 모든 수치를 LiteRT-LM, MLX, Hugging Face Transformers, vLLM 환경에서 측정한 토큰/초 기준이라고 명시합니다.
- NVIDIA RTX PRO 6000에서 Gemma 4 26B 표준 추론 대비 MTP 드래프터 적용 시 토큰/초가 약 2배(발표문 표현 “half the wait time”) 수준으로 개선되었다고 발표문에 표기됩니다.
- Apple Silicon에서 26B MoE(Mixture-of-Experts) 모델은 batch 1 환경에서 라우팅 부담이 있으나, 같은 발표문 기준 batch 4~8로 동시 처리하면 약 2.2배의 로컬 가속이 측정됩니다.
- Nvidia A100 환경에서도 batch 크기를 키우면 유사한 가속 패턴이 관찰된다고 발표문이 밝힙니다(정확한 배율은 발표문에 별도 명시되지 않음).
발표문이 제시한 가속 상한은 “최대 3배”이며, 실제 효과는 모델 크기·하드웨어·배치 정책에 따라 달라진다고 같은 글이 명시합니다.
6. 지원 프레임워크와 도입 경로
발표문 기준 MTP 드래프터는 §1에 정리한 6종 런타임에서 즉시 실험 가능합니다. 모바일·디바이스 측면에서는 Google AI Edge Gallery 앱이 Android와 iOS 양쪽으로 제공된다고 같은 글이 안내합니다. 자세한 사용법은 발표문 안에 링크된 공식 문서를 따라가야 하며, 가중치는 Hugging Face와 Kaggle에서 즉시 받을 수 있습니다.
7. Gemma 4 운영 중인 한국 팀의 점검 항목

Gemma 4를 자체 GPU에 올려 서비스 중이거나 도입을 검토 중인 한국 팀이라면, 드래프터 적용 결정 자체보다 다음 항목의 통과 여부를 먼저 확인하도록 합니다.
- 드래프터·타깃 정합성: 운영 중인 Gemma 4 가중치 버전과 신규 MTP 드래프터 가중치가 같은 패밀리·리비전 조합인지 Hugging Face 모델 카드에서 확인하세요. 발표문이 언급한 품질 보장은 짝지어 검증된 조합을 전제로 합니다.
- vLLM·SGLang 버전 핀: 드래프터 통합은 런타임 측 speculative decoding 지원 버전에 의존합니다. 운영 환경의 vLLM·SGLang 버전을 핀했는지, 업그레이드 시 회귀 테스트 절차가 있는지 사내 운영 룰을 점검하세요.
- 배치 정책 재검토: 발표문 기준 Apple Silicon과 A100에서 batch 4~8 영역의 가속이 두드러집니다. 트래픽이 산발적인 서비스라면 큐잉·연속 배치(continuous batching) 정책 도입 여부를 다시 살피도록 합니다.
- VRAM·KV 캐시 모니터링: 드래프터가 타깃 모델의 KV 캐시를 공유하므로 동시 컨텍스트 길이가 늘어날 때 메모리 사용 패턴이 달라질 수 있습니다. 모니터링 알람 임계값과 OOM 회복 시나리오를 함께 재검토하세요.
- 품질 회귀 검증 계획: 발표문은 출력 품질·추론 논리에 회귀가 없다고 밝히지만, 자체 평가 셋에서 도입 전·후 응답을 직접 비교하도록 합니다. eval 파이프라인과 경계 케이스 샘플을 미리 준비하세요.
- 라이선스·거버넌스 재확인: 라이선스가 Apache 2.0이어도 모델 가중치 배포·재학습 정책은 사내 ML 거버넌스에서 별도 조항으로 다뤄지는 경우가 많습니다. 도입 전에 사내 법무·보안 검토 절차를 재확인하도록 합니다.
8. 정리
MTP 드래프터는 메모리 대역폭 병목과 자기회귀 비효율을 동시에 공략하는 낮은 비용 가속안입니다. Google Developers Blog 발표문 기준 “최대 3배”라는 숫자는 인상적이지만, 실제 가속 폭은 모델 크기·하드웨어·배치 크기에 좌우됩니다. 자체 트래픽 프로파일에 맞춘 측정과 위 점검 항목 검증이 도입 결정의 선행 조건이라 정리할 수 있습니다.
관련 글
LLM·AI 도구 운영 리스크 점검 패턴을 다룬 다른 글들을 함께 참고할 수 있습니다.
- LLM 비전형 활용 7가지, 한국 개발자 실무 즉시 적용 가이드 — 자체 LLM 운영 시나리오 검토에 도움이 되는 활용 사례 정리입니다.
- GitHub Copilot 청구 전환 — AI Credits 시행 한국 개발자 점검표 — AI 도구 도입 비용·정책 변화에 대응하는 점검 패턴을 다룬 글입니다.
- Warp 터미널 오픈소스 전환 — AGPL과 agent-first 도입 점검표 — 새 오픈소스 도구 도입 시 라이선스·운영 체크리스트 사례입니다.
📌 함께 보시면 좋은 글
※ 본 글은 AI(Claude)의 초안을 기반으로 편집자 검수를 거쳐 발행되었습니다. (한국 AI기본법 대응 고지)
이직·퇴사, 지금 움직여도 될지 헷갈리시나요?
막연히 불안한 건지, 정말 시점이 온 건지 판단이 어려울 때가 있습니다.
5분 체크리스트로 지금 상태를 먼저 정리해보세요.
결론을 대신 내리기보다, 스스로 판단할 기준을 잡는 데 도움을 드립니다.
아직 확신이 없다면, 지금이 ‘고민 단계’인지부터 먼저 점검해보세요