本研究提出了FinePhys框架,通过物理法则实现细粒度人类动作生成,显著提高了复杂体操动作的自然性和可信性。
本研究评估了深度学习模型在大陆尺度水质预测中的可信性挑战,重点关注公平性、不确定性和可解释性。通过分析482个美国流域的水质数据,揭示了模型性能差异的系统模式,并提出了评估可信性的方法框架,为水资源管理中的数据驱动方法提供了重要见解。
本研究提出了一个评估大型语言模型透明性和可信性的框架,采用人类推理一致性等四个指标。结果显示,LIME方法在多个模型中表现优异,人类推理一致性得分高达0.9685。
本研究提出了一种将形式方法与大型语言模型结合的新策略,增强了语言模型的可信性,提高了工具的可用性和效率,可能会变革可信AI软件系统的开发。
本研究探讨了分布式学习中随机梯度下降(SGD)的通信瓶颈和信任问题,发现压缩SGD在隐私保护方面优于未压缩SGD,并指出成员推断攻击(MIA)不可靠。
本研究使用R-Judge评估8种语言模型在27个风险场景中的表现。GPT-4的风险评估得分为72.29%,低于人类的89.38%,显示出提升风险意识的潜力。通过风险描述反馈显著提高模型性能,强调安全风险反馈的重要性。研究还通过安全分析技术和案例研究促进未来研究。
本研究提出了一个统一框架来评估RAG系统的可信性,并为提高其在实际应用中的可信性提供了实用见解和未来研究的挑战。
本研究综述了合成数据集生成方法的演变,回顾了应用于自动驾驶研究的合成数据集的相关工作,讨论了其在自动驾驶算法测试中的作用,尤其是在可信性和安全性方面。此外,还讨论了合成数据集在自动驾驶技术实际部署方面的问题,并提供了一种可能的解决方案。
基于大型语言模型的代理通信和社交互动的最新进展,提出了PLAYER*框架,利用传感器和修剪器为复杂的推理任务提供了一个问题驱动的搜索框架。实验证明,PLAYER*在复杂动态环境中提供了效率和性能的改进。
本综述论文探讨了大型语言模型(LLMs)的研究,包括上下文学习、微调方法和参数使用效率优化等机制。还研究了融入人类反馈和外部知识的新方法。论文提出了对LLMs伦理问题需谨慎应用。展望了未来的研究方向,为人工智能领域提供了指南。
该综述论文介绍了数据驱动技术在固体无路径依赖响应的本构法则中的应用。方法分为基于机器学习和无模型方法,并根据解释能力和所需数据学习过程/类型进一步分类。同时讨论了一般化和可信性的关键问题,并提供了解决这些问题的路线图。
本文介绍了一个名为NeuralSentinel(NS)的工具,用于验证人工智能模型的可靠性和可信度,并帮助非专业人员增强对该系统的信心。该工具在一个黑客马拉松活动中使用,评估皮肤癌检测器的可靠性,并学习出导致模型错误分类的最重要因素和最有效的技术。同时,该工具还检测了NS的局限性并收集了反馈以进行改进。
完成下面两步后,将自动完成登录并继续当前操作。