麻省理工学院的研究人员开发了一种新训练方法“带校准奖励的强化学习”(RLCR),该方法提高了AI模型的信心估计准确性,减少了90%的校准误差,同时保持或提升了准确性。通过惩罚模型的自信错误回答,促使模型在回答问题时考虑不确定性,适用于医疗、金融等领域,提升了AI输出的可靠性。
本研究探讨了文本到SQL系统中的错误检测信心估计问题,提出了一种新方法,通过熵分析将选择性分类器集成到系统中,以改进模型校准。实验结果表明,选择性分类器在识别错误方面更为有效。
本研究探讨了大型语言模型在非英语语言中的信心估计不足问题。通过多语种信心估计(MlingConf)方法,发现英语在语言无关任务中表现优越,而使用相关语言提示可显著提升语言特定任务的信心估计,从而提高模型的可靠性和准确性。
完成下面两步后,将自动完成登录并继续当前操作。