利用大型语言模型作为元评估者:评估大型语言模型判断的多智能体框架

本研究解决了在复杂任务中评估大型语言模型(LLMs)判断时面临的偏见和错误问题,并探讨了如何在多个潜在LLM响应中选择合适判断的方式。提出的三阶段元评估选择流程,通过与人类专家合作开发全面评分标准,并利用多个LLM智能体进行协作评分,显著提高了判断的准确性,实验结果表明,相较于传统方法,准确性提升了约15.55%。

发表于:
阅读原文