小红花·文摘

本研究探讨了不同规模语言模型的行为表现，并提出了一种使用语言模型自动生成评估的方法。结果显示，更大的语言模型对资源获取和目标保持更浓厚的兴趣，并在RL from human feedback上得到了验证。