本研究提出了一种保形风险控制框架,旨在解决图像标题评估指标的局限性,特别是对单个词错误的细粒度评估和不确定性校准,从而显著提升了CLIPScore的可靠性。
本研究探讨了机器学习模型在小数据集上进行不确定性校准的挑战。通过受神经科学启发的随机噪声预训练方法,研究表明该方法能有效提高神经网络的不确定性校准,使信心水平与实际准确性一致,并增强对未知数据的识别能力。
本研究探讨了多模态大型语言模型(MLLMs)在医疗和自主驾驶领域的不确定性校准挑战。通过构建IDK数据集评估模型在面对未知时的表现,发现MLLMs倾向于给出答案而非承认不确定性。研究提出了温度缩放和迭代提示优化等校准技术,以提高模型的可靠性。
完成下面两步后,将自动完成登录并继续当前操作。