多款大模型在回答“洗车店50米应步行还是开车”时显示出常识推理的缺陷。OpenAI的新成员Peter Steinberger将OpenClaw转型为独立基金会。欧盟通过法规禁止销毁未售出服装,推动循环经济发展。
2025年被称为“智能体之年”,AI逐渐融入现实生活。尽管GPT-5和Claude Sonnet 4.5表现出色,但在多步骤任务中仍有超过40%的失败率。研究表明,智能体需具备工具使用、规划、适应性和常识推理等能力,以有效应对现实环境。目前,常识推理仍是AI与人类之间的主要差距。
本研究通过图形结构注释方案评估大型语言模型(LLMs)在37种日常活动中的常识推理能力,揭示了其推理组件的特征,帮助理解决策过程。
近年来,AI视频生成技术迅速发展,VBench-2.0评测体系强调视频的内在真实性,关注物理规律和常识推理等深层次能力,补充VBench-1.0,推动视频生成模型的创作与应用潜力提升。
本研究针对现有常识推理数据集大多基于英语,导致跨语言低资源常识推理缺乏数据的挑战,提出了一种多源适配器MetaXCR。该方法通过扩展元学习并引入强化学习抽样策略,有效地利用有限的标注数据提升模型在目标语言上的表现,实验结果表明MetaXCR在性能和参数效率上均优于现有技术。
本文研究了视觉问答(VQA)中的数据集偏见、模型复杂性和常识推理问题。通过比较五种先进的VQA模型,提出了各自独特的方法,以提升模型的鲁棒性和实用性。
本研究提出了PredictaBoard基准测试框架,旨在评估大型语言模型(LLM)在常识推理任务中的得分可预测性,强调可预测性在安全部署AI系统中的重要性,为降低风险和提高可靠性提供新方向。
本研究提出了一种基于常识增强的讽刺检测框架EICR,解决了现有方法在复杂场景中缺乏常识推理的问题。通过构建依赖图和对抗性对比学习,显著提升了情感不一致性检测的效果。
本研究探讨了大型语言模型(LLM)在上下文学习中的示例选择策略,提出了迭代示范选择(IDS)和演示感知校准(In-Context Calibration)等新方法,以提升模型在常识推理和问答等任务中的性能,强调了示例质量和选择算法的重要性。
本研究针对大型语言模型在隐含知识推理中的常识问题,提出通过新闻信息提取器构建知识库的方法,实验结果表明该方法在新闻分类任务中表现优异。
通过自我纠正训练,小型语言模型在数学和常识推理方面的能力得到了提升。实验表明,强配对的使用显著提高了性能,但弱自验证器的效果有限。
我们介绍了CHARM基准,用于评估大型语言模型的中文常识推理能力。研究表明,提示策略受模型定位和任务领域影响,部分模型在常识记忆方面存在困难,进而影响推理能力。此研究明确了模型的优劣,为优化提供了方向,并可为其他研究提供参考。
本研究提出一种新方法,结合人类运动数据库和视觉语言模型,提升类人机器人在自然语言理解和运动表现方面的能力。实验结果表明,该方法能有效改善机器人在真实环境中的表现。
论文介绍了一种“Talker-Reasoner”架构,模拟人类快慢思维。该架构由“Talker”模块快速生成语言和“Reasoner”模块进行深入推理组成。实验显示,这种方法在语言生成、问答和常识推理任务中优于传统模型,但未详细讨论实际挑战和伦理问题。总体而言,该架构为AI模拟人类认知提供了新思路,值得进一步研究。
该研究提出MMLU基准来测试大型语言模型的推理能力。MMLU涵盖多种任务,评估模型在多步推理、常识推理和因果理解上的表现。研究发现,尽管LLMs在语言生成上表现良好,但在复杂推理任务上仍有不足,需进一步研究以提升AI的推理能力。
研究调查了100位哲学家和计算机科学家,探讨大型语言模型在知识理解上的不足。结果显示,LLMs在逻辑推理、语义理解和知识库可靠性方面存在问题,尤其在常识推理和抽象概念理解上与人类有差距。尽管LLMs能生成流畅文本,但在多义一致性上仍显不足。
通过自我纠正训练,小型语言模型在数学和常识推理方面的能力得到提升,与GPT-4相比性能显著提高。但使用弱自验证器存在限制。
VaLM是一种预训练框架,通过视觉增强语言建模,提高多模态语言建模的性能。VaLM在常识推理任务中表现优秀,特别是在颜色、大小和形状方面。
我们提出了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力。我们评估模型是否能进行视觉常识推理,即生成与文本提示相符的图像。我们发现图像合成与真实生活照片之间仍存在差距。我们的目标是将此作为常识检查的高质量评估基准,促进实际生活图像生成的进展。
通过语言模型的构建过程,使用 LM 生成问题 / 答案、改进答案和验证 QA,然后减少人工验证的工作量,我们提出了 Multilingual CommonsenseQA(mCSQA),这是一个用于评估多语言 LM 的跨语言语言传递能力的基准数据集。实验结果表明,多语言 LM...
完成下面两步后,将自动完成登录并继续当前操作。