浙江大学与阿里巴巴等团队研究发现,多模态大模型在视觉推理中存在“盲目自信”现象,即在图像质量下降时仍保持高置信度。为解决此问题,提出CA-TTS框架,通过置信度校准和资源分配优化推理效果。实验表明,该方法在多个视觉推理基准上显著提升准确率,强调了先感知后推理的重要性。
本研究提出了一种基于预测理论的质量控制框架,针对深度学习在医学图像分割中的置信度校准问题。该框架通过动态阈值机制自适应调整分割决策边界,有效控制虚假发现率,提高医学影像分析的准确性和安全性。
本研究提出了一种新颖的强化学习方法,以提高大语言模型在回答问题时的置信度校准。实验结果表明,该方法显著改善了置信度表达,并能有效推广到新任务中,增强了大语言模型的可靠性。
本文探讨了深度神经网络中的置信度校准问题,提出了温度缩放法和概率校准树等多种校准方法,以提高模型预测的可靠性。研究引入了新的评估指标,揭示了现有校准技术的缺陷,并针对置信度过高和过低提出了相应的校准技术。通过大量实验验证了这些方法的有效性,强调了校准在机器学习任务中的重要性。
本研究探讨了大型语言模型(LLM)在文本注释中的性能,强调数据集和任务类型对结果的影响。提出了一种新框架,通过评估多个候选答案的可信度来改善模型的置信度校准。实验结果显示,LLM在语义等效输入中的置信度不稳定,需改进模型参数化知识的稳定性。此外,LLM尚未能系统替代人类评审员。
本文提出了一种新的标准来测量语义分割模型的置信度校准质量,并评估不平衡类别的不确定性。研究表明,剔除低质量段可以提升汽车零部件的分割效果。此外,提出的选择性缩放方法在多个基准测试中表现优异,同时介绍了一个用于医学图像分割失败检测的基准框架,强调了像素置信度聚合的重要性。
研究通过L2CEval系统评估了大型语言模型在语言到代码生成方面的能力,并分析了影响其性能的因素。该研究还评估了模型的置信度校准情况和输出的程序,并识别了典型的失败模式。提供了对语言模型在语言到代码生成方面能力和限制的全面了解,并发布了评估框架和模型输出,为未来研究提供基础。
本文提出了一种深度学习置信度和准确性校准的通用方法,通过随机推断对网络的预测结果进行分析,并设计了一种新型的置信度综合损失函数。实验结果表明该算法有效地解决了深度神经网络在预测置信度上的过度自信问题。
本研究使用IntAct PPI数据库创建了一个远程监督的数据集,利用PPI-BioBERT-x10训练集成的BioBERT模型预测蛋白质对之间的PTMs,并提出了置信度校准的方法进行过滤和人工筛选。通过利用多篇文章进行预测,提高了预测的精度和可靠性。研究探讨了深度学习方法在文本挖掘中的应用和局限性,并强调了在人工筛选过程中置信度校准的重要性。
该研究使用IntAct PPI数据库创建了一个远程监督的数据集,使用PPI-BioBERT-x10训练集成的BioBERT模型来预测蛋白质对之间的PTMs,并提出了置信度校准的方法。通过使用多篇文章进行预测,提高了预测的精度和可靠性。研究探讨了深度学习方法在文本挖掘中的应用和局限性,并强调了在人工筛选过程中置信度校准的重要性。
研究通过L2CEval系统评估了大型语言模型在语言到代码生成方面的能力,并分析了影响性能的因素。同时,还对模型的置信度校准情况和输出的程序进行了评估。该研究提供了对模型能力和限制的全面了解,并发布了评估框架和模型输出,为未来研究奠定基础。
本研究使用L2CEval系统评估大型语言模型在7个任务中的语言到代码生成能力,并分析影响性能的因素。同时衡量模型置信度校准情况,并对输出程序进行人工评估。研究提供了对LLMs在语言到代码生成方面能力和限制的全面了解,并发布了评估框架和所有模型输出。
该研究使用IntAct PPI数据库创建了一个远程监督的数据集,使用PPI-BioBERT-x10训练集成的BioBERT模型来预测蛋白质对之间的PTMs,并提出了置信度校准的方法以对其进行过滤和人工筛选。研究发现,即使进行了置信度校准,也会出现在测试数据集外的误差和挑战。因此,他们利用多篇文章进行预测,从而提高了预测的精度和可靠性。该研究探讨了深度学习方法在文本挖掘中的应用和局限性,并强调了在人工筛选过程中置信度校准的重要性。
该文介绍了一种对齐的语言模型在多选题设置下多显示过于自信的输出答案的问题,并提出了易于实施且高效的校准方法。作者评估了对齐过程对语言模型的逻辑回归置信度校准的影响。
本研究使用L2CEval系统评估了大型语言模型在7个任务中的语言到代码生成能力,并分析了影响性能的因素。同时,还衡量了模型的置信度校准情况,并对输出的程序进行了人工评估。研究结果提供了对LLMs在语言到代码生成方面能力和限制的全面了解,并发布了评估框架和所有模型输出。
本研究评估了大型语言模型在语言到代码生成方面的能力,分析了影响性能的因素,并衡量了模型的置信度校准情况。研究结果提供了对LLMs在语言到代码生成方面能力和限制的全面了解,并发布了评估框架和所有模型输出。
完成下面两步后,将自动完成登录并继续当前操作。