基于论证的比较问答评估基准

📝

内容提要

本文解决了自动比较问答过程中的关键问题,提出了一种评估框架用于评估比较问答摘要的质量。研究发现,Llama-3 70B Instruct模型在摘要评估中表现最佳,而GPT-4在回答比较问题方面效果最佳。

➡️

继续阅读