小红花·文摘

本文提出了MCQA-Eval框架，解决了自然语言生成中信心评估依赖不准确的正确性函数的问题。该方法利用多选数据集中的金标准标签，系统比较不同信心评估方法，实验结果表明其在效率和可靠性上优于现有方法。