本文介绍了名为 Themis 的大语言模型评审机制,旨在提供上下文感知的评价。Themis 能够提炼教师模型的评估技能,适应变化的需求,研究表明其与人类偏好的高度一致性,具有广泛的应用潜力。
本文探讨了自然语言生成(NLG)的评估方法,分析了基于大型语言模型(LLM)的评估框架及其优缺点。研究发现,GPT-4在多语言评估中表现最佳,且与人类评判一致性较高。文章提出了协同评估流程CoEval,强调人机合作在NLG评估中的重要性,并指出未来研究方向和挑战。
完成下面两步后,将自动完成登录并继续当前操作。