麻省理工学院的研究人员开发了一种新训练方法“带校准奖励的强化学习”(RLCR),该方法提高了AI模型的信心估计准确性,减少了90%的校准误差,同时保持或提升了准确性。通过惩罚模型的自信错误回答,促使模型在回答问题时考虑不确定性,适用于医疗、金融等领域,提升了AI输出的可靠性。
完成下面两步后,将自动完成登录并继续当前操作。