本文提出了一种新的评估方法——代理忠实度(SF),解决了现有解释方法忠实度评估不足的问题。研究表明,引入空间感知显著提高了解释的忠实度,最佳忠实度(OF)在多种情况下提供更准确的解释,并在处理不同领域的数据和对抗样本时表现出更好的鲁棒性。
本研究探讨前馈计算图选择对神经网络性能的影响,发现图的忠实度和混合时间是两个重要的互补性度量。不当构造可能导致学习能力受限。
本研究提出VicSim模型,解决了场景训练中有效受害者模拟不足的问题。通过结合受害者建模与生成对抗网络,VicSim在模拟人类特征方面优于GPT-4,展现出显著的应用潜力。
本研究提出了一种新的角色扮演代理(RPA)评估方法,旨在解决适应性差和判断不准确的问题。通过知识图谱提取关系,并利用RPA的幻想特性进行互动评估,实验结果表明该方法有效可靠。
本研究提出了不忠实最小分组(BUMP)的基准测试,该数据集由889个人类编写的最小不同摘要对组成,摘要来自CNN / DailyMail数据集,揭示了度量标准的稳定性和不足之处。
研究发现,开放式语言模型在多语言中的表现不一,需要进一步研究分词的影响。
本研究提出了一种标准化方法,Normalized AOPC (NAOPC),用于评估深度学习模型中特征归因方法的忠实度。实验证明,该方法改变了AOPC结果,为特征归因的评估提供了更稳健的框架。
图神经网络的预测解释需要准确可信,现有指标对解释属性不敏感。针对此问题,提出了解决方案。对于特定结构的图神经网络,追求完全准确可信的解释无意义。自解释和领域不变的模块化图神经网络结构,追求可信度不损害信息量,并与非分布式泛化能力相关。
该研究论文介绍了一种全面的任务重组方法,称为电路发现,并提出了一种基于可微分遮罩的创新有效算法 DiscoGP。该算法成功解决了现有电路发现研究的两个主要限制,展示了最先进的忠实度、完整性和稀疏性,为新的洞察生成型 AI 的内部工作方式开拓了新的途径。
基于综合评估框架的结果显示,没有一个单一的度量标准在所有评估中始终优秀,揭示了细颗粒度支持评估的复杂性,因此我们提供了制定更有效度量标准的实践建议。
本研究提出了一种基于梯度加权的 Gradient Cam 增强方法,解决了饱和现象和敏感性问题,构建更准确、局部、鲁棒的解释,并通过微调扰动分布来调节解释的复杂性和稳定特征选择。验证了该方法的有效性。
本文介绍了反思性语言编程(RLP)方法,强调自我意识和战略规划,实现情境丰富、连贯、有吸引力的交互。RLP在社交性AGI领域有广泛应用潜力。
大型语言模型的忠诚度测试通常只测量模型输出的自我一致性,而不是其内部工作的忠诚度。作者提出了一种新的测量方法,通过比较模型的输入贡献与答案预测和生成解释之间的一致性来更准确地衡量模型的忠诚度。
大型视觉语言模型(LVLMs)存在幻觉问题,研究者提出了多维度评估基准和两阶段评估框架,证明其比现有方法更全面、与人类更相关,并强调了解决幻觉问题的关键平衡。
理解链状思维生成在大型语言模型内部计算中的程度对于决定是否信任语言模型的输出至关重要。评估模型大小与忠实度的关系时发现,130亿参数模型比8.1亿到1750亿参数的模型表现出更高的忠实度。然而,仅改变提示中答案选择的顺序就能将该度量缩小73百分点,对评估忠实度的有效性产生疑虑。
研究者提出了一种即插即用的方法来估计语言模型的置信度,并在4个MCQA数据集上对6个RLHF-LM进行实验,展现了良好的校准性能。研究者还提出了两个新的评估指标IPR和CE,对模型的校准性进行了详细讨论。希望这项工作可以成为一个强有力的基线,并对模型的置信度校准提供一些见解。
在自然语言处理应用中,研究人员希望提高预测性能并寻求准确解释。研究发现多语言模型的解释准确性与单语言模型存在差异,且多语言模型越大,特征归因方法的解释准确性越低。分析表明,这种差异可能由模型分词器之间的差异引起。
该研究使用自洽性检查来测量大型语言模型的忠实度,并应用于三种类型的自我解释。研究发现,忠实度与任务和模型相关,不同任务和模型的解释方式也不同。该研究结果在提示变体方面具有稳健性。
本研究评估了大型语言模型在社会科学研究中的算法忠实度和偏差,并发现在表示全球变暖观点时存在挑战。研究强调了在使用大型语言模型进行调查模拟时进行细致的条件设置、模型选择、调查问卷格式和偏差评估的重要性。进一步研究提示工程和算法审计对于利用大型语言模型的潜力以及解决其固有限制至关重要。
本研究提出了两个定量指标,即图一致性和图忠实度,用于衡量基于知识图谱的解释的忠实性,并引入了一种新的训练方法CGNN。CGNN方法可以提高解释的一致性和忠实度,为开发基于图的忠实解释结构提供了前进的方向。
完成下面两步后,将自动完成登录并继续当前操作。