多款大模型在回答“洗车店50米应步行还是开车”时显示出常识推理的缺陷。OpenAI的新成员Peter Steinberger将OpenClaw转型为独立基金会。欧盟通过法规禁止销毁未售出服装,推动循环经济发展。
2025年被称为“智能体之年”,AI逐渐融入现实生活。尽管GPT-5和Claude Sonnet 4.5表现出色,但在多步骤任务中仍有超过40%的失败率。研究表明,智能体需具备工具使用、规划、适应性和常识推理等能力,以有效应对现实环境。目前,常识推理仍是AI与人类之间的主要差距。
本研究通过图形结构注释方案评估大型语言模型(LLMs)在37种日常活动中的常识推理能力,揭示了其推理组件的特征,帮助理解决策过程。
近年来,AI视频生成技术迅速发展,VBench-2.0评测体系强调视频的内在真实性,关注物理规律和常识推理等深层次能力,补充VBench-1.0,推动视频生成模型的创作与应用潜力提升。
本研究针对现有常识推理数据集大多基于英语,导致跨语言低资源常识推理缺乏数据的挑战,提出了一种多源适配器MetaXCR。该方法通过扩展元学习并引入强化学习抽样策略,有效地利用有限的标注数据提升模型在目标语言上的表现,实验结果表明MetaXCR在性能和参数效率上均优于现有技术。
本文研究了视觉问答(VQA)中的数据集偏见、模型复杂性和常识推理问题。通过比较五种先进的VQA模型,提出了各自独特的方法,以提升模型的鲁棒性和实用性。
本研究提出了PredictaBoard基准测试框架,旨在评估大型语言模型(LLM)在常识推理任务中的得分可预测性,强调可预测性在安全部署AI系统中的重要性,为降低风险和提高可靠性提供新方向。
本研究提出了一种基于常识增强的讽刺检测框架EICR,解决了现有方法在复杂场景中缺乏常识推理的问题。通过构建依赖图和对抗性对比学习,显著提升了情感不一致性检测的效果。
本研究探讨了大型语言模型(LLM)在上下文学习中的示例选择策略,提出了迭代示范选择(IDS)和演示感知校准(In-Context Calibration)等新方法,以提升模型在常识推理和问答等任务中的性能,强调了示例质量和选择算法的重要性。
本研究探讨大型语言模型在处理网页新闻时的常识推理不足问题,提出通过提取新闻关系元组并结合隐含知识构建知识库进行分类的方法。实验结果显示,该方法在新闻分类任务中表现优异,具有显著潜力。
本研究提出了一种多模态知识库框架,旨在提升视觉问答的灵活性和可扩展性。通过结合图形学习与知识图谱,系统在多个数据集上表现优异,特别是在常识推理和图像理解方面,展现了显著的有效性和泛化能力。
论文介绍了一种“Talker-Reasoner”架构,模拟人类快慢思维。该架构由“Talker”模块快速生成语言和“Reasoner”模块进行深入推理组成。实验显示,这种方法在语言生成、问答和常识推理任务中优于传统模型,但未详细讨论实际挑战和伦理问题。总体而言,该架构为AI模拟人类认知提供了新思路,值得进一步研究。
该研究提出MMLU基准来测试大型语言模型的推理能力。MMLU涵盖多种任务,评估模型在多步推理、常识推理和因果理解上的表现。研究发现,尽管LLMs在语言生成上表现良好,但在复杂推理任务上仍有不足,需进一步研究以提升AI的推理能力。
研究调查了100位哲学家和计算机科学家,探讨大型语言模型在知识理解上的不足。结果显示,LLMs在逻辑推理、语义理解和知识库可靠性方面存在问题,尤其在常识推理和抽象概念理解上与人类有差距。尽管LLMs能生成流畅文本,但在多义一致性上仍显不足。
该研究提出了一种统一的大规模视觉语言模型(LVLM),通过自监督映射和对比模型捕捉图像与文本的细粒度关系,提升了图像和视频任务的表现。同时,引入VaLM框架,增强语言建模的视觉能力,在常识推理任务中展现出优越性。
本文提出了一种对比解码方法,通过比较模型不同层次的逻辑概率分布,显著提高大型语言模型的文本生成质量,减少幻觉现象。该方法在常识推理和数学推理基准测试中表现优异,提升生成文本的真实性和准确性,且无需额外训练,具有广泛应用潜力。
本论文探讨了常识推理在对话人工智能中的应用,分析了大型语言模型(LLMs)如BlenderBot3和LaMDA的常识能力,并提出改进方法以提升同理心回应的生成性能。研究评估了情感分析的标准化方法,指出当前模型在处理模糊文本时的局限性,并强调了伦理风险和偏见问题。
本文提出了多种高效的微调方法,如Spectral DeTuning和LoRA-XS,旨在优化大型语言模型的训练性能和参数效率。研究表明,LoRA在某些任务中优于全精调,同时保持模型的正则化效果。此外,文章探讨了处理敏感数据时的隐私攻击风险,并通过实验验证了新方法在常识推理和数学推理任务中的优越性。
本研究探讨了检索增强语言模型(RALMs)的性能提升,提出了迭代检索生成方法(Iter-RetGen),在多跳问答和常识推理任务中表现优异。研究发现大型语言模型在科学文档推理中存在证据捏造风险,并构建了WiTQA数据集,分析实体和关系对信息检索的影响,提出了改进模型推理能力的框架。
本文提出了一种知识蒸馏方法,通过大型语言模型生成合理解释,提升小型自洽模型的推理能力。研究表明,采用级联分解和多模态框架等技术,能有效提高模型在科学问答和常识推理任务中的表现,超越传统方法。
完成下面两步后,将自动完成登录并继续当前操作。