最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景
原文中文,约1200字,阅读约需3分钟。发表于: 。字节豆包团队开源了FullStack Bench评估基准,涵盖11类真实编程场景和16种语言,共3374个问题,提升大模型编程能力评估的有效性。同时推出支持多语言编程任务测试的SandboxFusion工具。
字节豆包团队开源了FullStack Bench评估基准,涵盖11类真实编程场景和16种语言,共3374个问题,提升大模型编程能力评估的有效性。同时推出支持多语言编程任务测试的SandboxFusion工具。