基于LASSO的测试驱动软件实验:一种LLM基准测试示例

📝

内容提要

本研究解决了经验软件工程中缺乏标准工具以快速开发和执行测试驱动软件实验(TDSEs)的关键问题。我们提出了一种名为LASSO的通用分析平台,通过可执行脚本语言使用户能够高效地设计和执行TDSEs,进而评估运行时语义和执行特性。我们的研究表明,LASSO的脚本功能可有效评估大规模语言模型(LLMs)在代码生成方面的可靠性,具有重要的实际应用价值。

🏷️

标签

➡️

继续阅读