缩小知识评估差距：多层次答案的开放领域问题回答

BriefGPT - AI 论文速递 ·

本研究提出了GRANOLA QA评估设置，用于评估多粒度答案的准确性和信息量。通过改进数据集，建立了GRANOLA-EQ多粒度实体问题数据集，并评估了一系列解码方法，包括DRAG算法。实验证明，DRAG算法在多粒度答案上平均提高了近20个百分点的准确性，揭示了标准评估和解码方法可能低估了语言模型的知识。

DRAG算法 GRANOLA QA评估设置信息量准确性多粒度答案

原文中文，约400字，阅读约需1分钟。

阅读原文

分享给好友