生成型大语言模型(LLMs)在公众问答系统中流行,但存在潜在的有害答案生成。通过对6000个LLM的互动进行反思,发现模型行为不一致。提出改进建议,并确定提示设计对模型性能的影响。研究结果可用于制定最佳实践使用指南。
完成下面两步后,将自动完成登录并继续当前操作。