陈丹琦团队的LONGPROC基准测试显示,尽管许多大模型声称支持32K tokens,但在生成复杂长文时表现不佳。实验发现,GPT-4o等模型在8K tokens任务中的性能显著下降,尤其在需要长推理的旅行规划任务中仍有改进空间。
完成下面两步后,将自动完成登录并继续当前操作。