本研究探讨大型语言模型在气候问题上的忠实性不足,提出ClimateGPT Faithful+模型,通过自动评估和排除不忠实数据,将支持声明的忠实性从30%提升至57%。
本研究解决了在潜在混淆和非忠实性条件下因果发现的挑战。论文提出了一种新颖的无参数评分方法,通过将其融入数据兼容的因果发现算法dcFCI,首次有效应对混合数据类型的问题。研究表明,dcFCI在小规模和异质数据集中显著优于现有方法,为因果推理和决策提供了更强的支持。
本研究提出了一种逐层迭代压缩技术,解决深度神经网络层数增加导致的信息损失问题。该方法通过单独压缩每层并补偿误差,提升了模型的输入输出和结构忠实性。实验结果表明,该技术在乳腺癌诊断数据集上显著降低了不忠实性,为复杂MLP模型的压缩提供了新思路。
本研究探讨了因果发现与推断中概率分布与图之间的忠实性问题,提出了不忠实概率分布的示例,并分析了其对因果推断方法的影响。
本研究评估了大型语言模型(LLMs)的生成输出质量,发现高质量输出与记忆文本比例相关。提出了新的评估框架和基准测试,分析了模型在多轮多语种指令执行中的能力及格式偏见问题,强调了提示设计的重要性,并探讨了长文本摘要中的忠实性与位置信息偏差。
本研究提出了一种新的波形归因方法(WAM),用于解决深度神经网络在安全决策中的不透明性。WAM扩展了传统梯度归因方法,统一解释图像、音频和3D形状分类器。实验表明,WAM在忠实性和解释性上优于现有方法,能识别输入的重要区域和模式。
本研究调查了大型语言模型在生成响应时的上下文忠实性,并提出了一种量化记忆强度的方法。研究发现,高记忆强度的问题更倾向于依赖内部记忆,而不同风格的证据能提高其接受度。
大语言模型在复杂问题中性能受限,因此提出了顺序指令调整策略,通过增加指令调整数据,使模型能够执行多个顺序指令。实验证明,该策略在推理、多语言和多模态任务中优于传统指令调整基线。希望该方法能为指令调整研究提供新的途径。
大型语言模型在处理代词时表现较差,对于新代词和干扰因素的处理能力有限。研究人员呼吁解决这些问题。
本文介绍了使用大型语言模型(LLM)评估文本摘要中的实际一致性(FC)的研究。通过引入TreatFact数据集,作者对11个LLM进行了FC评估,并发现通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源LLM的性能。然而,现有的方法和基于LLM的评估器都无法捕捉到临床摘要中的实际不一致性,给FC评估提出了新的挑战。
研究使用自然语言推理模型提高对话摘要的覆盖率和忠实度。通过实验证实该方法的有效性,并评估不同维度的对话摘要。提供有关评估对话摘要的度量标准的见解。
完成下面两步后,将自动完成登录并继续当前操作。