小红花·文摘

研究发现，大型语言模型（LLMs）如GPT-4在判断陈述的能力上与人类存在显著差异，高估了无意义陈述的深度。少量训练样本的提示能使LLMs接近人类评分，非思维链式的提示则使LLMs评分远离人类。研究还揭示了强化学习中的潜在偏见。