本研究提出了一种基于计算树逻辑的自然语言解释框架,旨在提升人工智能在顺序规划中的信任度。该框架有效地解释了蒙特卡洛树搜索算法,确保用户查询与环境动态的一致性,表现优异。
本研究分析了大型语言模型(LLM)在后门攻击中的安全漏洞,发现清洁样本与污染样本的自然语言解释存在显著差异。这一发现加深了对LLM后门攻击机制的理解,并为检测此类漏洞提供了框架。
本文探讨了如何通过因子论证为贝叶斯网络推理提供自然语言解释,提出的算法优化了论证展示,增强了用户对推理的理解,尤其在医学领域优于传统方法。
本研究提出了一种利用自然语言解释作为模型无关的防御策略,通过分类器微调提高模型鲁棒性。同时,探讨了语言生成指标与人类感知的相关性,为解释提供验证标准。
本研究提出了一种生成自然语言解释的方法,用于药物-药物相互作用(DDI)预测,提高了预测的信任度并揭示了药效学和药代动力学机制。研究表明,该模型能够准确解释已知药物之间的未知DDI,对DDI预测工具的发展有重要贡献。
Plang是一种基于意图的编程语言,可以解释自然语言。它允许将事件绑定到目标和步骤,具有强大的功能。它可以用4行代码解决身份验证问题。Plang还可以用于自我纠正的软件,通过指示LLM修复代码。如果有错误,Plang助手可以更新代码。如果仍然有空字段,则需要修复前一个目标。有关更多信息,请访问plang.is。
本文介绍了一种新颖的多步骤管道,利用反事实生成自然语言解释,帮助用户理解如何通过改变决策因素来改进分类器的输出。实验结果显示该方法在与反事实一致性和内容质量方面具有良好的表现,展示了其在可解释人工智能领域的潜在应用价值。
本文研究了自然语言解释的连贯性评估方法,并提出了基于Transformer的新方法。实验结果表明,该方法能够提高解释的连贯性,而不影响推荐性能。
语言模型的解释性研究有限,本文提出了一种自动化的方法,使用GPT-4生成和评分神经元行为的自然语言解释,并将其应用于另一个语言模型。这种方法有望成为未来模型更好解释的助手。
完成下面两步后,将自动完成登录并继续当前操作。