本研究分析了预训练大语言模型中的多标记预测(MTP)能力,发现其性能受数据依赖影响,且模型规模增大可提升性能。联合训练MTP头与主干可改善性能,但无法完全解决隐藏层专门化问题。
完成下面两步后,将自动完成登录并继续当前操作。