随着大模型在长文本处理中的应用增多,传统的困惑度评估方法显现出局限性。研究表明,某些模型在困惑度上表现良好,但实际效果不佳。北京大学团队提出了新的评估指标长文本困惑度(LongPPL),更准确地反映模型在长文本处理中的能力,并提出长文本交叉熵(LongCE)以优化训练效果。
完成下面两步后,将自动完成登录并继续当前操作。