基于多样化指令的可控生成大型语言模型的基准测试
原文中文,约500字,阅读约需2分钟。发表于: 。我们提出了一个新的基准测试 CoDI-Eval,系统和全面评估 LLMs 对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源 LLMs 之间存在显著差距。
研究评估了10个开源指导式LLMs在代码理解和生成任务上的表现。结果显示,指导式LLMs在零样本和少样本设置下表现有竞争力,有时甚至优于小型SOTA模型。添加演示示例可以提高性能,但有时会导致不稳定或更差的表现。基于BM25的选样策略在生成问题上优于随机选样或固定选样。微调可以进一步提高模型性能。指导式LLMs在微调后的性能优于小型SOTA模型和未进行指导微调的相似规模LLMs。研究提出了模型和使用建议、性能和成本的权衡以及未来方向的实用影响。