小红花·文摘

本研究探讨大型语言模型（LLMs）在表格数据推理中的能力，指出现有评估策略无法真实反映其性能。改进评估后发现，LLMs在缺失值、重复实体和结构变化等情况下的推理能力显著下降，强调了提升鲁棒性的重要性。

BriefGPT - AI 论文速递 ·

本研究针对动作识别模型在指导视频中的序数偏差问题，提出了动作遮罩和序列洗牌方法，并强调改进评估策略和开发灵活模型的重要性。

BriefGPT - AI 论文速递 ·

本研究探讨了人工智能与信任在网络安全中的关系，提出了信任评估策略和治理框架，发现动态管理信任能够通过人工智能构建韧性安全生态系统。

BriefGPT - AI 论文速递 ·

本文综述了基于大型语言模型（LLM）的智能代理研究进展，探讨其在社会科学、自然科学和工程领域的应用及评估策略，分析LLM与传统代理的区别、核心组成部分及记忆机制，提出AgentQuest和AgentGym框架，并展望未来发展方向和挑战。

BriefGPT - AI 论文速递 ·

本文综述了可解释推荐的评估策略，提出了不同分类方法，并分析了现有评估方法的优点和缺点，并提供了选取它们的指南。通过分析100多篇论文，提供了关于可解释推荐的全面评估综述。

BriefGPT - AI 论文速递 ·