小红花·文摘

自然语言处理社区评估大规模语言模型的生成文本质量，提出了一种名为CritiqueLLM的新型批判生成模型。该模型通过对话提示方法进行评估，结果显示与GPT-4相媲美，尤其在系统级相关性和无参考环境中表现优异。该模型具有可扩展性特性，生成的批评可作为反馈，提高语言模型的生成质量。