大语言模型是否“贪婪”?激励提示效果的实验分析($0 至 $100 万)[译]
原文中文,约2800字,阅读约需7分钟。发表于: 。给 GPT-4 Turbo 提供小费以期获得更完美的回答,这种做法真的有效吗?目前对此话题的研究还相当有限。我们对一些编程相关的提示进行了初步实验,发现给予一定的小费可能确实有效,但小费的数额似乎非常关键。例如,如果小费很少(比如只有 $0.1),GPT-4 Turbo 的表现反而会变差。在我们的实验中,提供 $0.1 和 $100 万美元的小费,性能改善幅度分别是 -27% 到...
给GPT-4 Turbo提供小费可能有效,但小费数额关键。实验发现,提供$0.1和$100万美元的小费,性能改善幅度分别是-27%到+57%。需要更多实验验证不同类型的提示对性能的影响。实验结果显示,随着奖励金额增加,AI的质量和代码量呈上升趋势,但关系并不简单。小额打赏可能带来正面影响,但金额很小时模型表现反而更差。人类行为模式可能通过调整原始模型解释。