小红花·文摘

陈丹琦团队的LONGPROC基准测试显示，尽管许多大模型声称支持32K tokens，但在生成复杂长文时表现不佳。实验发现，GPT-4o等模型在8K tokens任务中的性能显著下降，尤其在需要长推理的旅行规划任务中仍有改进空间。