Cursor的Composer 2在编码基准测试中超越Opus 4.6,成本却低得多

Cursor的Composer 2在编码基准测试中超越Opus 4.6,成本却低得多

💡 原文英文,约600词,阅读约需3分钟。
📝

内容提要

Cursor公司发布了Composer 2,这是其第三代编码模型,性能超越Anthropic的Opus 4.6,成本更低。在Terminal-Bench 2.0基准测试中得分61.7%,虽然仍落后于OpenAI的GPT-5.4(75.1%),但显示出快速追赶的潜力。Composer 2采用自我总结的训练技术,显著提高了长任务表现,减少了50%的压缩错误。

🎯

关键要点

  • Cursor公司发布了Composer 2,这是其第三代编码模型,性能超越Anthropic的Opus 4.6,成本更低。

  • Composer 2在Terminal-Bench 2.0基准测试中得分61.7%,虽然仍落后于OpenAI的GPT-5.4(75.1%),但显示出快速追赶的潜力。

  • Composer 2采用自我总结的训练技术,显著提高了长任务表现,减少了50%的压缩错误。

  • Composer 2的训练方法称为“自我总结”,使得模型能够从更长的任务轨迹中获取训练信号。

  • Cursor的模型是模型无关的,开发者可以选择运行的模型或使用Cursor的自动模式,根据智能、速度和成本的权衡选择最佳模型。

🔎

延伸解读

Composer 2的技术创新

Composer 2引入了自我总结的训练技术,这一创新使得模型能够在处理长任务时更有效地获取信息。通过将总结过程融入训练循环,模型能够在达到特定长度时自动压缩上下文,从而减少信息遗失。这种方法显著提高了长任务的表现,减少了50%的压缩错误,展示了Cursor在模型训练上的前沿探索。

市场竞争与成本优势

尽管Composer 2在性能上仍落后于OpenAI的GPT-5.4,但其成本优势明显。Composer 2的输入和输出费用远低于竞争对手,这使得开发者在选择模型时可以更灵活地考虑成本与性能的平衡。随着Cursor不断提升模型性能,其市场竞争力有望进一步增强。

开发者的选择灵活性

Cursor的模型无关性为开发者提供了更多选择。开发者可以根据具体需求选择运行的模型,或使用Cursor的自动模式来优化智能、速度和成本的权衡。这种灵活性使得开发者能够更好地适应不同的应用场景,提高了开发效率。

延伸问答

Composer 2的主要优势是什么?

Composer 2在编码基准测试中超越了Opus 4.6,并且成本更低。

Composer 2在Terminal-Bench 2.0基准测试中的得分是多少?

Composer 2在Terminal-Bench 2.0基准测试中得分61.7%。

Composer 2的训练技术是什么?

Composer 2采用了自我总结的训练技术,显著提高了长任务表现。

Composer 2的成本是多少?

Composer 2的成本为每百万输入令牌0.5美元,输出令牌2.5美元。

Composer 2与其他模型相比的成本如何?

与Opus 4.6的5美元/25美元和GPT-5.4的2.5美元/15美元相比,Composer 2的成本更低。

自我总结训练技术的优势是什么?

自我总结训练技术减少了50%的压缩错误,提高了模型在长任务中的表现。

🏷️

标签

➡️

继续阅读