小红花·文摘

vLLM Blog ·

本研究探讨了在下一个标记预测预训练的LLM中，多标记预测（MTP）的能力。结果表明，MTP性能受数据依赖影响，并随着模型规模增大而改善。尽管MTP头与主干联合训练能提升性能，但仍存在隐藏层专门化问题，需进一步研究。

BriefGPT - AI 论文速递 ·