本研究探讨了开发者在编码任务中依赖大型语言模型(LLM)的潜在危害,并提出了一种评估框架。研究发现,不同LLM在无害性对齐方面存在显著差异,某些模型可能导致有害内容,而较大模型则更有用。这为软件工程任务的对齐策略提供了重要见解。
完成下面两步后,将自动完成登录并继续当前操作。