小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

浙江大学与阿里巴巴等团队研究发现,多模态大模型在视觉推理中存在“盲目自信”现象,即在图像质量下降时仍保持高置信度。为解决此问题,提出CA-TTS框架,通过置信度校准和资源分配优化推理效果。实验表明,该方法在多个视觉推理基准上显著提升准确率,强调了先感知后推理的重要性。

浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

量子位
量子位 · 2026-03-22T07:17:19Z

本研究提出了一种基于预测理论的质量控制框架,针对深度学习在医学图像分割中的置信度校准问题。该框架通过动态阈值机制自适应调整分割决策边界,有效控制虚假发现率,提高医学影像分析的准确性和安全性。

Statistical Guarantees of False Discovery Rate in Medical Instance Segmentation Tasks Based on Conformal Risk Control

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本研究提出了一种新颖的强化学习方法,以提高大语言模型在回答问题时的置信度校准。实验结果表明,该方法显著改善了置信度表达,并能有效推广到新任务中,增强了大语言模型的可靠性。

Rewarding Doubt: A Reinforcement Learning Approach for Confidence Calibration of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本文探讨了深度神经网络中的置信度校准问题,提出了温度缩放法和概率校准树等多种校准方法,以提高模型预测的可靠性。研究引入了新的评估指标,揭示了现有校准技术的缺陷,并针对置信度过高和过低提出了相应的校准技术。通过大量实验验证了这些方法的有效性,强调了校准在机器学习任务中的重要性。

ForeCal:基于随机森林的深度神经网络校准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

本研究探讨了大型语言模型(LLM)在文本注释中的性能,强调数据集和任务类型对结果的影响。提出了一种新框架,通过评估多个候选答案的可信度来改善模型的置信度校准。实验结果显示,LLM在语义等效输入中的置信度不稳定,需改进模型参数化知识的稳定性。此外,LLM尚未能系统替代人类评审员。

不自信的大型语言模型注释能否用于自信的结论?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文提出了一种新的标准来测量语义分割模型的置信度校准质量,并评估不平衡类别的不确定性。研究表明,剔除低质量段可以提升汽车零部件的分割效果。此外,提出的选择性缩放方法在多个基准测试中表现优异,同时介绍了一个用于医学图像分割失败检测的基准框架,强调了像素置信度聚合的重要性。

EO 数据语义分割分类算法的置信度评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-26T00:00:00Z

研究通过L2CEval系统评估了大型语言模型在语言到代码生成方面的能力,并分析了影响其性能的因素。该研究还评估了模型的置信度校准情况和输出的程序,并识别了典型的失败模式。提供了对语言模型在语言到代码生成方面能力和限制的全面了解,并发布了评估框架和模型输出,为未来研究提供基础。

Plot2Code:用于评估科学图形代码生成的多模态大型语言模型的综合基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

本文提出了一种深度学习置信度和准确性校准的通用方法,通过随机推断对网络的预测结果进行分析,并设计了一种新型的置信度综合损失函数。实验结果表明该算法有效地解决了深度神经网络在预测置信度上的过度自信问题。

通过正则化、置信度最小化和选择性推断校准贝叶斯学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-17T00:00:00Z

本研究使用IntAct PPI数据库创建了一个远程监督的数据集,利用PPI-BioBERT-x10训练集成的BioBERT模型预测蛋白质对之间的PTMs,并提出了置信度校准的方法进行过滤和人工筛选。通过利用多篇文章进行预测,提高了预测的精度和可靠性。研究探讨了深度学习方法在文本挖掘中的应用和局限性,并强调了在人工筛选过程中置信度校准的重要性。

PSC-CPI: 高效且可泛化的多尺度蛋白质序列 - 结构对比用于化合物 - 蛋白相互作用预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-13T00:00:00Z

该研究使用IntAct PPI数据库创建了一个远程监督的数据集,使用PPI-BioBERT-x10训练集成的BioBERT模型来预测蛋白质对之间的PTMs,并提出了置信度校准的方法。通过使用多篇文章进行预测,提高了预测的精度和可靠性。研究探讨了深度学习方法在文本挖掘中的应用和局限性,并强调了在人工筛选过程中置信度校准的重要性。

利用 PPI 检索进行高效的蛋白质相互作用研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-06T00:00:00Z

研究通过L2CEval系统评估了大型语言模型在语言到代码生成方面的能力,并分析了影响性能的因素。同时,还对模型的置信度校准情况和输出的程序进行了评估。该研究提供了对模型能力和限制的全面了解,并发布了评估框架和模型输出,为未来研究奠定基础。

NoFunEval: 搞笑的事实上代码语言模型在功能正确性以外的要求上遭遇困难

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-29T00:00:00Z

本研究使用L2CEval系统评估大型语言模型在7个任务中的语言到代码生成能力,并分析影响性能的因素。同时衡量模型置信度校准情况,并对输出程序进行人工评估。研究提供了对LLMs在语言到代码生成方面能力和限制的全面了解,并发布了评估框架和所有模型输出。

S3Eval:一套针对大型语言模型的综合、可扩展、系统评估套件

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-23T00:00:00Z

该研究使用IntAct PPI数据库创建了一个远程监督的数据集,使用PPI-BioBERT-x10训练集成的BioBERT模型来预测蛋白质对之间的PTMs,并提出了置信度校准的方法以对其进行过滤和人工筛选。研究发现,即使进行了置信度校准,也会出现在测试数据集外的误差和挑战。因此,他们利用多篇文章进行预测,从而提高了预测的精度和可靠性。该研究探讨了深度学习方法在文本挖掘中的应用和局限性,并强调了在人工筛选过程中置信度校准的重要性。

基于 K-mer 的蛋白质相互作用预测方法改进:混沌游戏表示法、深度学习和降低表示偏差

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-23T00:00:00Z

该文介绍了一种对齐的语言模型在多选题设置下多显示过于自信的输出答案的问题,并提出了易于实施且高效的校准方法。作者评估了对齐过程对语言模型的逻辑回归置信度校准的影响。

研究多选设置下对齐语言模型的不确定性校准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

本研究使用L2CEval系统评估了大型语言模型在7个任务中的语言到代码生成能力,并分析了影响性能的因素。同时,还衡量了模型的置信度校准情况,并对输出的程序进行了人工评估。研究结果提供了对LLMs在语言到代码生成方面能力和限制的全面了解,并发布了评估框架和所有模型输出。

DyVal:基于图信息的大型语言模型动态评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-29T00:00:00Z

本研究评估了大型语言模型在语言到代码生成方面的能力,分析了影响性能的因素,并衡量了模型的置信度校准情况。研究结果提供了对LLMs在语言到代码生成方面能力和限制的全面了解,并发布了评估框架和所有模型输出。

L2CEval: 评估大型语言模型的语言到代码生成能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码