Multi-Token Prediction Requires Registers
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出MuToR方法,通过将可学习的寄存器令牌交错到输入序列中,解决了语言模型微调中的多令牌预测问题。研究表明,MuToR在多种场景下表现优异,特别适合有监督的微调任务。
🎯
关键要点
-
本研究提出MuToR方法,解决了语言模型微调中的多令牌预测问题。
-
MuToR通过将可学习的寄存器令牌交错到输入序列中,旨在有效进行未来目标的预测。
-
研究表明,MuToR在多种应用场景中表现优异,特别适合有监督的微调任务。
-
MuToR保持与传统下一令牌预训练目标的一致性。
➡️