小红花·文摘

本研究提出了一种“遗忘曲线”方法，用于更可靠地评估语言模型的记忆能力。结果表明，该方法对测试语料和实验设置具有鲁棒性，不依赖提示，适用于任何模型规模。实证分析证实了变换器扩展技术的有效性，并对RNN/SSM模型的有效长度提出了质疑。