最真实大模型编程评估！字节开源FullStack Bench，首次全覆盖超11类现实编程场景

原文中文，约1200字，阅读约需3分钟。发表于：。

字节豆包团队开源了FullStack Bench评估基准，涵盖11类真实编程场景和16种语言，共3374个问题，提升大模型编程能力评估的有效性。同时推出支持多语言编程任务测试的SandboxFusion工具。

FullStack Bench SandboxFusion 大模型编程场景评估基准