本文提出了MCQA-Eval框架,解决了自然语言生成中信心评估依赖不准确的正确性函数的问题。该方法利用多选数据集中的金标准标签,系统比较不同信心评估方法,实验结果表明其在效率和可靠性上优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。