研究发现,大型语言模型(LLMs)如GPT-4在判断陈述的能力上与人类存在显著差异,高估了无意义陈述的深度。少量训练样本的提示能使LLMs接近人类评分,非思维链式的提示则使LLMs评分远离人类。研究还揭示了强化学习中的潜在偏见。
完成下面两步后,将自动完成登录并继续当前操作。