小红花·文摘

Gemma 4推出了多令牌预测（MTP）模型，采用专门的推测解码架构，实现了三倍的速度提升，同时保持输出质量不变。MTP通过将重型目标模型与轻型草拟模型配对，减少延迟，提升AI应用在本地和边缘设备上的性能。MTP草拟器现已开源，开发者可在Hugging Face等平台下载和实验。

The Keyword ·

本研究提出MuToR方法，通过将可学习的寄存器令牌交错到输入序列中，解决了语言模型微调中的多令牌预测问题。研究表明，MuToR在多种场景下表现优异，特别适合有监督的微调任务。

BriefGPT - AI 论文速递 ·