Gemma 4推出了多令牌预测(MTP)模型,采用专门的推测解码架构,实现了三倍的速度提升,同时保持输出质量不变。MTP通过将重型目标模型与轻型草拟模型配对,减少延迟,提升AI应用在本地和边缘设备上的性能。MTP草拟器现已开源,开发者可在Hugging Face等平台下载和实验。
本研究提出MuToR方法,通过将可学习的寄存器令牌交错到输入序列中,解决了语言模型微调中的多令牌预测问题。研究表明,MuToR在多种场景下表现优异,特别适合有监督的微调任务。
完成下面两步后,将自动完成登录并继续当前操作。