Multi-Token Prediction Requires Registers

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出MuToR方法,通过将可学习的寄存器令牌交错到输入序列中,解决了语言模型微调中的多令牌预测问题。研究表明,MuToR在多种场景下表现优异,特别适合有监督的微调任务。

🎯

关键要点

  • 本研究提出MuToR方法,解决了语言模型微调中的多令牌预测问题。

  • MuToR通过将可学习的寄存器令牌交错到输入序列中,旨在有效进行未来目标的预测。

  • 研究表明,MuToR在多种应用场景中表现优异,特别适合有监督的微调任务。

  • MuToR保持与传统下一令牌预训练目标的一致性。

➡️

继续阅读