大型语言模型(LLMs)在遵循用户指令方面存在显著局限性,影响其在高风险应用中的可靠性。我们首次系统评估了LLMs在指令遵循中的不确定性估计能力,发现现有方法在处理细微错误时表现不佳,尽管内部模型状态有所改善,但仍无法应对复杂场景。这些发现为理解LLMs的局限性和不确定性估计提供了重要见解。
本文探讨了弱监督学习在多实例部分标签学习中的可解释性和可靠性问题。通过引入归纳逻辑编程,提出了一种神经符号框架,增强了模型的结构性和学习指导,提高了模型的稳健性和透明度,确保神经网络的预测符合领域知识,适用于高风险应用。
本研究提出了一种名为STX-搜索的方法,旨在提高高风险应用(如医疗和交通)中时空模型预测的可解释性。该方法通过新颖的搜索策略和目标函数,生成高保真度的实例级解释,优化了解释的可理解性。与现有方法相比,STX-搜索在解释质量和大小上表现更佳。
本研究探讨了现有人工智能监管框架的局限性,指出传统基准测试无法有效保障AI系统的安全。建议采用双层监管框架,加强对高风险应用的监管,并对低风险使用进行适当的风险沟通。
本文探讨了大型语言模型(LLMs)在遵循用户指令时的可靠性,指出其在高风险应用中的局限性。研究首次系统评估了LLMs的不确定性估计能力,并提出了受控评估设置以比较不同条件下的不确定性估计方法。结果显示,现有方法在模型细微错误时表现不佳,揭示了LLMs在指令遵循任务中的不足。
本研究提出了一种新的PCP框架,解决了复杂分布和有限样本下覆盖效率不足的问题。通过向量化非顺应性分数和优化预测集形状,显著提高了效率。实验结果表明,该方法在合成和真实数据集上表现优异,特别适用于高风险领域。
本研究提出了一套全面的基准评估工具,用于评估大型语言模型在欺诈与滥用检测领域的应用。研究发现,尽管在个别任务中表现良好,但在需要细致的语用推理的任务上表现不佳。这为大型语言模型在高风险应用中的负责任发展提供了重要启示。
完成下面两步后,将自动完成登录并继续当前操作。