小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

多款大模型在回答“洗车店50米应步行还是开车”时显示出常识推理的缺陷。OpenAI的新成员Peter Steinberger将OpenClaw转型为独立基金会。欧盟通过法规禁止销毁未售出服装,推动循环经济发展。

2026 02 17 HackerNews

介绍 on SuperTechFans
介绍 on SuperTechFans · 2026-02-17T01:38:30Z
RL 环境与智能体能力金字塔

2025年被称为“智能体之年”,AI逐渐融入现实生活。尽管GPT-5和Claude Sonnet 4.5表现出色,但在多步骤任务中仍有超过40%的失败率。研究表明,智能体需具备工具使用、规划、适应性和常识推理等能力,以有效应对现实环境。目前,常识推理仍是AI与人类之间的主要差距。

RL 环境与智能体能力金字塔

宝玉的分享
宝玉的分享 · 2025-11-13T07:14:53Z

本研究通过图形结构注释方案评估大型语言模型(LLMs)在37种日常活动中的常识推理能力,揭示了其推理组件的特征,帮助理解决策过程。

Insights into the Mechanisms of Quantifying Commonsense Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z
VBench-2.0:面向视频生成新世代的评测框架

近年来,AI视频生成技术迅速发展,VBench-2.0评测体系强调视频的内在真实性,关注物理规律和常识推理等深层次能力,补充VBench-1.0,推动视频生成模型的创作与应用潜力提升。

VBench-2.0:面向视频生成新世代的评测框架

机器之心
机器之心 · 2025-03-28T10:14:00Z

本研究针对现有常识推理数据集大多基于英语,导致跨语言低资源常识推理缺乏数据的挑战,提出了一种多源适配器MetaXCR。该方法通过扩展元学习并引入强化学习抽样策略,有效地利用有限的标注数据提升模型在目标语言上的表现,实验结果表明MetaXCR在性能和参数效率上均优于现有技术。

MetaXCR:基于强化学习的跨语言常识推理元迁移学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-09T00:00:00Z

本文研究了视觉问答(VQA)中的数据集偏见、模型复杂性和常识推理问题。通过比较五种先进的VQA模型,提出了各自独特的方法,以提升模型的鲁棒性和实用性。

Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出了PredictaBoard基准测试框架,旨在评估大型语言模型(LLM)在常识推理任务中的得分可预测性,强调可预测性在安全部署AI系统中的重要性,为降低风险和提高可靠性提供新方向。

PredictaBoard: Benchmarking the Predictability of Scores for Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出了一种基于常识增强的讽刺检测框架EICR,解决了现有方法在复杂场景中缺乏常识推理的问题。通过构建依赖图和对抗性对比学习,显著提升了情感不一致性检测的效果。

Detecting Emotional Incongruity of Sarcasm through Commonsense Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究探讨了大型语言模型(LLM)在上下文学习中的示例选择策略,提出了迭代示范选择(IDS)和演示感知校准(In-Context Calibration)等新方法,以提升模型在常识推理和问答等任务中的性能,强调了示例质量和选择算法的重要性。

上下文学习的课程示范选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本研究针对大型语言模型在隐含知识推理中的常识问题,提出通过新闻信息提取器构建知识库的方法,实验结果表明该方法在新闻分类任务中表现优异。

知识库在大型语言模型支持下处理网页新闻的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

通过自我纠正训练,小型语言模型在数学和常识推理方面的能力得到了提升。实验表明,强配对的使用显著提高了性能,但弱自验证器的效果有限。

自我训练与一致性相结合:通过一致性驱动的推理评估提升大型语言模型的推理能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z

我们介绍了CHARM基准,用于评估大型语言模型的中文常识推理能力。研究表明,提示策略受模型定位和任务领域影响,部分模型在常识记忆方面存在困难,进而影响推理能力。此研究明确了模型的优劣,为优化提供了方向,并可为其他研究提供参考。

大型语言模型在逻辑推理中的记忆机制研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究提出一种新方法,结合人类运动数据库和视觉语言模型,提升类人机器人在自然语言理解和运动表现方面的能力。实验结果表明,该方法能有效改善机器人在真实环境中的表现。

Harmon: 从语言描述生成类人智能机器人的全身运动

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

论文介绍了一种“Talker-Reasoner”架构,模拟人类快慢思维。该架构由“Talker”模块快速生成语言和“Reasoner”模块进行深入推理组成。实验显示,这种方法在语言生成、问答和常识推理任务中优于传统模型,但未详细讨论实际挑战和伦理问题。总体而言,该架构为AI模拟人类认知提供了新思路,值得进一步研究。

AI 说话者-推理者:模拟人类的快思与慢思

DEV Community
DEV Community · 2024-10-15T07:13:02Z

该研究提出MMLU基准来测试大型语言模型的推理能力。MMLU涵盖多种任务,评估模型在多步推理、常识推理和因果理解上的表现。研究发现,尽管LLMs在语言生成上表现良好,但在复杂推理任务上仍有不足,需进一步研究以提升AI的推理能力。

超越下一个词预测:通过多模态语言任务对大型语言模型推理进行压力测试

DEV Community
DEV Community · 2024-10-07T10:05:33Z

研究调查了100位哲学家和计算机科学家,探讨大型语言模型在知识理解上的不足。结果显示,LLMs在逻辑推理、语义理解和知识库可靠性方面存在问题,尤其在常识推理和抽象概念理解上与人类有差距。尽管LLMs能生成流畅文本,但在多义一致性上仍显不足。

知识的定义:桥接认识论与大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

通过自我纠正训练,小型语言模型在数学和常识推理方面的能力得到提升,与GPT-4相比性能显著提高。但使用弱自验证器存在限制。

自我训练的语言模型用于算术推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-11T00:00:00Z

VaLM是一种预训练框架,通过视觉增强语言建模,提高多模态语言建模的性能。VaLM在常识推理任务中表现优秀,特别是在颜色、大小和形状方面。

BACON:利用概念图强化虚拟生命模型以减少幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

我们提出了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力。我们评估模型是否能进行视觉常识推理,即生成与文本提示相符的图像。我们发现图像合成与真实生活照片之间仍存在差距。我们的目标是将此作为常识检查的高质量评估基准,促进实际生活图像生成的进展。

常识 T2I 挑战:文本到图像生成模型能否理解常识?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

通过语言模型的构建过程,使用 LM 生成问题 / 答案、改进答案和验证 QA,然后减少人工验证的工作量,我们提出了 Multilingual CommonsenseQA(mCSQA),这是一个用于评估多语言 LM 的跨语言语言传递能力的基准数据集。实验结果表明,多语言 LM...

mCSQA: 采用语言模型和人类统一创建策略的多语言常识推理数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码