量子位 ·

豆包代码大模型曝光！在字节最新开源基准里，多种编程语言性能仅次于OpenAI/Claude

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

字节推出了豆包代码大模型Doubao-Coder的Preview版，表现优异，排名第五。同时发布了评估基准FullStack Bench，涵盖16种语言和3374个问题，以更真实地评估AI编程能力。

🎯

🔎

字节推出的FullStack Bench评估基准，旨在填补现有AI编程能力评估的空白。通过涵盖16种编程语言和3374个问题，该基准能够更真实地反映AI在复杂编程场景中的表现，尤其是全栈开发的实际应用。这种创新将推动AI编程助手的进一步优化与发展。

评测结果显示，闭源模型在解决复杂编程问题时普遍优于开源模型，尤其在数学编程领域表现差异显著。这提示开发者在选择模型时需考虑任务的复杂性，闭源模型可能在特定领域提供更可靠的解决方案。

SandboxFusion作为开源的代码沙盒执行工具，支持多种编程语言的评估，能够帮助开发者系统性地测试大模型的编程能力。其反馈机制也显示出对模型表现的提升作用，开发者在使用时应充分利用这一功能，以优化模型的输出质量。

❓

Doubao-Coder在多种编程语言上的性能排名第五，表现优异。

FullStack Bench是一个涵盖16种编程语言和3374个问题的代码评估数据集，旨在真实评估AI编程能力。

每个问题由编程专家设计，并经过AI和人工验证进行质量复核。

SandboxFusion是一个开源的代码沙盒执行工具，支持多种编程语言的评估。

闭源模型在解决难题上普遍优于开源模型，尤其在数学编程领域表现差异显著。

使用反馈上下文的反思策略明显优于单次推断策略，提升了模型表现。

🏷️