小红花·文摘

浙大团队破解多模态模型「盲目自信」：先校准置信度，再分配算力丨CVPR’26

量子位 ·

本研究提出了一种基于预测理论的质量控制框架，针对深度学习在医学图像分割中的置信度校准问题。该框架通过动态阈值机制自适应调整分割决策边界，有效控制虚假发现率，提高医学影像分析的准确性和安全性。

Statistical Guarantees of False Discovery Rate in Medical Instance Segmentation Tasks Based on Conformal Risk Control

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的强化学习方法，以提高大语言模型在回答问题时的置信度校准。实验结果表明，该方法显著改善了置信度表达，并能有效推广到新任务中，增强了大语言模型的可靠性。

Rewarding Doubt: A Reinforcement Learning Approach for Confidence Calibration of Large Language Models

BriefGPT - AI 论文速递 ·

本文探讨了深度神经网络中的置信度校准问题，提出了温度缩放法和概率校准树等多种校准方法，以提高模型预测的可靠性。研究引入了新的评估指标，揭示了现有校准技术的缺陷，并针对置信度过高和过低提出了相应的校准技术。通过大量实验验证了这些方法的有效性，强调了校准在机器学习任务中的重要性。

ForeCal：基于随机森林的深度神经网络校准

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）在文本注释中的性能，强调数据集和任务类型对结果的影响。提出了一种新框架，通过评估多个候选答案的可信度来改善模型的置信度校准。实验结果显示，LLM在语义等效输入中的置信度不稳定，需改进模型参数化知识的稳定性。此外，LLM尚未能系统替代人类评审员。

不自信的大型语言模型注释能否用于自信的结论？

BriefGPT - AI 论文速递 ·

本文提出了一种新的标准来测量语义分割模型的置信度校准质量，并评估不平衡类别的不确定性。研究表明，剔除低质量段可以提升汽车零部件的分割效果。此外，提出的选择性缩放方法在多个基准测试中表现优异，同时介绍了一个用于医学图像分割失败检测的基准框架，强调了像素置信度聚合的重要性。

EO 数据语义分割分类算法的置信度评估

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）置信度校准的新方法，提出通过多校准技术和多模型协作来提高置信度分数的准确性。研究表明，合理的提示策略和温度缩放能显著降低校准误差，并提出了新的评估指标以分析模型输出的可信度，旨在提升模型生成答案的可靠性。

LLMs 的置信度校准和理性化通过多智能体思考

BriefGPT - AI 论文速递 ·

本研究评估了通过强化学习和人工反馈提高大型语言模型（LLM）置信度校准的方法。采用合理提示和温度缩放显著降低了校准误差。研究表明，模型的校准能力依赖于训练设置和度量，并提出了新的置信度估计框架，以增强用户对模型输出的信任。实验验证了多语言置信度估计技术的有效性，并提出了评估多个候选答案可信度的新方法，以改善模型的准确性和可靠性。

通过引发忠实度来校准大型语言模型的置信度

BriefGPT - AI 论文速递 ·

本研究使用IntAct PPI数据库创建了一个远程监督的数据集，利用PPI-BioBERT-x10训练集成的BioBERT模型预测蛋白质对之间的PTMs，并提出了置信度校准的方法进行过滤和人工筛选。通过利用多篇文章进行预测，提高了预测的精度和可靠性。研究探讨了深度学习方法在文本挖掘中的应用和局限性，并强调了在人工筛选过程中置信度校准的重要性。

PSC-CPI: 高效且可泛化的多尺度蛋白质序列 - 结构对比用于化合物 - 蛋白相互作用预测

BriefGPT - AI 论文速递 ·

该研究使用IntAct PPI数据库创建了一个远程监督的数据集，使用PPI-BioBERT-x10训练集成的BioBERT模型来预测蛋白质对之间的PTMs，并提出了置信度校准的方法。通过使用多篇文章进行预测，提高了预测的精度和可靠性。研究探讨了深度学习方法在文本挖掘中的应用和局限性，并强调了在人工筛选过程中置信度校准的重要性。

利用 PPI 检索进行高效的蛋白质相互作用研究

BriefGPT - AI 论文速递 ·

研究通过L2CEval系统评估了大型语言模型在语言到代码生成方面的能力，并分析了影响性能的因素。同时，还对模型的置信度校准情况和输出的程序进行了评估。该研究提供了对模型能力和限制的全面了解，并发布了评估框架和模型输出，为未来研究奠定基础。

NoFunEval: 搞笑的事实上代码语言模型在功能正确性以外的要求上遭遇困难

BriefGPT - AI 论文速递 ·

本研究使用L2CEval系统评估大型语言模型在7个任务中的语言到代码生成能力，并分析影响性能的因素。同时衡量模型置信度校准情况，并对输出程序进行人工评估。研究提供了对LLMs在语言到代码生成方面能力和限制的全面了解，并发布了评估框架和所有模型输出。

S3Eval：一套针对大型语言模型的综合、可扩展、系统评估套件

BriefGPT - AI 论文速递 ·

该研究使用IntAct PPI数据库创建了一个远程监督的数据集，使用PPI-BioBERT-x10训练集成的BioBERT模型来预测蛋白质对之间的PTMs，并提出了置信度校准的方法以对其进行过滤和人工筛选。研究发现，即使进行了置信度校准，也会出现在测试数据集外的误差和挑战。因此，他们利用多篇文章进行预测，从而提高了预测的精度和可靠性。该研究探讨了深度学习方法在文本挖掘中的应用和局限性，并强调了在人工筛选过程中置信度校准的重要性。

基于 K-mer 的蛋白质相互作用预测方法改进：混沌游戏表示法、深度学习和降低表示偏差

BriefGPT - AI 论文速递 ·

该文介绍了一种对齐的语言模型在多选题设置下多显示过于自信的输出答案的问题，并提出了易于实施且高效的校准方法。作者评估了对齐过程对语言模型的逻辑回归置信度校准的影响。

研究多选设置下对齐语言模型的不确定性校准

BriefGPT - AI 论文速递 ·

本研究使用L2CEval系统评估了大型语言模型在7个任务中的语言到代码生成能力，并分析了影响性能的因素。同时，还衡量了模型的置信度校准情况，并对输出的程序进行了人工评估。研究结果提供了对LLMs在语言到代码生成方面能力和限制的全面了解，并发布了评估框架和所有模型输出。

DyVal：基于图信息的大型语言模型动态评估

BriefGPT - AI 论文速递 ·

本研究评估了大型语言模型在语言到代码生成方面的能力，分析了影响性能的因素，并衡量了模型的置信度校准情况。研究结果提供了对LLMs在语言到代码生成方面能力和限制的全面了解，并发布了评估框架和所有模型输出。

L2CEval: 评估大型语言模型的语言到代码生成能力

BriefGPT - AI 论文速递 ·