量子位 ·

打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

陈丹琦团队的LONGPROC基准测试显示，尽管许多大模型声称支持32K tokens，但在生成复杂长文时表现不佳。实验发现，GPT-4o等模型在8K tokens任务中的性能显著下降，尤其在需要长推理的旅行规划任务中仍有改进空间。

🎯

🔎

尽管许多大模型声称支持32K tokens的输出，但LONGPROC基准测试显示，实际生成复杂长文时的表现远低于预期。尤其是在需要长推理的任务中，如旅行规划，模型的输出质量显著下降，这表明当前技术在处理复杂信息时仍存在明显不足。

实验结果表明，开源模型在复杂推理任务中的表现普遍不及闭源模型。虽然某些中等规模的开源模型在特定任务上表现良好，但整体来看，闭源模型如GPT-4o在处理长程序生成时仍占据优势。这一发现可能影响开发者在选择模型时的决策。

LONGPROC基准测试的提出为评估长上下文模型提供了新的视角，尤其是在生成长段内容方面的能力。未来的研究可以集中在如何提升模型在复杂推理任务中的表现，以缩小与人类能力之间的差距，这将是自然语言处理领域的重要发展方向。

❓

LONGPROC基准测试旨在检测长上下文模型处理复杂信息并生成回复的能力。

GPT-4o在8K tokens任务中的性能显著下降，尤其在复杂推理的旅行规划任务中表现不佳。

LONGPROC基准测试包含HTML到TSV、伪代码生成、路径遍历、Theory-of-Mind跟踪、Countdown游戏和旅行规划等6个任务。

开源模型整体表现不及闭源模型，尤其在复杂推理任务中表现更差。

LONGPROC测试通过要求模型生成大于1K tokens的复杂输出，并提供确定性的解决方案来评估其能力。

当前模型在解决复杂任务时与人类相比存在显著差距，例如在Countdown游戏和旅行规划任务中，模型的解决问题数量远低于人类。

🏷️