小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种保形风险控制框架，旨在解决图像标题评估指标的局限性，特别是对单个词错误的细粒度评估和不确定性校准，从而显著提升了CLIPScore的可靠性。

A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates

BriefGPT - AI 论文速递 ·

本研究探讨了机器学习模型在小数据集上进行不确定性校准的挑战。通过受神经科学启发的随机噪声预训练方法，研究表明该方法能有效提高神经网络的不确定性校准，使信心水平与实际准确性一致，并增强对未知数据的识别能力。

Pretraining with Random Noise for Uncertainty Calibration

BriefGPT - AI 论文速递 ·

本研究探讨了多模态大型语言模型（MLLMs）在医疗和自主驾驶领域的不确定性校准挑战。通过构建IDK数据集评估模型在面对未知时的表现，发现MLLMs倾向于给出答案而非承认不确定性。研究提出了温度缩放和迭代提示优化等校准技术，以提高模型的可靠性。

Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models

BriefGPT - AI 论文速递 ·