小红花·文摘

本研究探讨了开发者在编码任务中依赖大型语言模型（LLM）的潜在危害，并提出了一种评估框架。研究发现，不同LLM在无害性对齐方面存在显著差异，某些模型可能导致有害内容，而较大模型则更有用。这为软件工程任务的对齐策略提供了重要见解。