小红花·文摘

多款大模型在回答“洗车店50米应步行还是开车”时显示出常识推理的缺陷。OpenAI的新成员Peter Steinberger将OpenClaw转型为独立基金会。欧盟通过法规禁止销毁未售出服装，推动循环经济发展。

2026 02 17 HackerNews

介绍 on SuperTechFans ·

RL 环境与智能体能力金字塔

宝玉的分享 ·

本研究通过图形结构注释方案评估大型语言模型（LLMs）在37种日常活动中的常识推理能力，揭示了其推理组件的特征，帮助理解决策过程。

Insights into the Mechanisms of Quantifying Commonsense Reasoning

BriefGPT - AI 论文速递 ·

VBench-2.0：面向视频生成新世代的评测框架

机器之心 ·

本研究针对现有常识推理数据集大多基于英语，导致跨语言低资源常识推理缺乏数据的挑战，提出了一种多源适配器MetaXCR。该方法通过扩展元学习并引入强化学习抽样策略，有效地利用有限的标注数据提升模型在目标语言上的表现，实验结果表明MetaXCR在性能和参数效率上均优于现有技术。

MetaXCR：基于强化学习的跨语言常识推理元迁移学习

BriefGPT - AI 论文速递 ·

本文研究了视觉问答（VQA）中的数据集偏见、模型复杂性和常识推理问题。通过比较五种先进的VQA模型，提出了各自独特的方法，以提升模型的鲁棒性和实用性。

Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison

BriefGPT - AI 论文速递 ·

本研究提出了PredictaBoard基准测试框架，旨在评估大型语言模型（LLM）在常识推理任务中的得分可预测性，强调可预测性在安全部署AI系统中的重要性，为降低风险和提高可靠性提供新方向。

PredictaBoard: Benchmarking the Predictability of Scores for Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种基于常识增强的讽刺检测框架EICR，解决了现有方法在复杂场景中缺乏常识推理的问题。通过构建依赖图和对抗性对比学习，显著提升了情感不一致性检测的效果。

Detecting Emotional Incongruity of Sarcasm through Commonsense Reasoning

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）在上下文学习中的示例选择策略，提出了迭代示范选择（IDS）和演示感知校准（In-Context Calibration）等新方法，以提升模型在常识推理和问答等任务中的性能，强调了示例质量和选择算法的重要性。

上下文学习的课程示范选择

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型在处理网页新闻时的常识推理不足问题，提出通过提取新闻关系元组并结合隐含知识构建知识库进行分类的方法。实验结果显示，该方法在新闻分类任务中表现优异，具有显著潜力。

Research on Knowledge Bases for Processing Web News Supported by Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种多模态知识库框架，旨在提升视觉问答的灵活性和可扩展性。通过结合图形学习与知识图谱，系统在多个数据集上表现优异，特别是在常识推理和图像理解方面，展现了显著的有效性和泛化能力。

视觉问答的多模态常识知识蒸馏

BriefGPT - AI 论文速递 ·

论文介绍了一种“Talker-Reasoner”架构，模拟人类快慢思维。该架构由“Talker”模块快速生成语言和“Reasoner”模块进行深入推理组成。实验显示，这种方法在语言生成、问答和常识推理任务中优于传统模型，但未详细讨论实际挑战和伦理问题。总体而言，该架构为AI模拟人类认知提供了新思路，值得进一步研究。

AI 说话者-推理者：模拟人类的快思与慢思

DEV Community ·

该研究提出MMLU基准来测试大型语言模型的推理能力。MMLU涵盖多种任务，评估模型在多步推理、常识推理和因果理解上的表现。研究发现，尽管LLMs在语言生成上表现良好，但在复杂推理任务上仍有不足，需进一步研究以提升AI的推理能力。

超越下一个词预测：通过多模态语言任务对大型语言模型推理进行压力测试

DEV Community ·

研究调查了100位哲学家和计算机科学家，探讨大型语言模型在知识理解上的不足。结果显示，LLMs在逻辑推理、语义理解和知识库可靠性方面存在问题，尤其在常识推理和抽象概念理解上与人类有差距。尽管LLMs能生成流畅文本，但在多义一致性上仍显不足。

知识的定义：桥接认识论与大型语言模型

BriefGPT - AI 论文速递 ·

该研究提出了一种统一的大规模视觉语言模型（LVLM），通过自监督映射和对比模型捕捉图像与文本的细粒度关系，提升了图像和视频任务的表现。同时，引入VaLM框架，增强语言建模的视觉能力，在常识推理任务中展现出优越性。

可解释的视觉 - 语言对齐的统一词汇表示

BriefGPT - AI 论文速递 ·

本文提出了一种对比解码方法，通过比较模型不同层次的逻辑概率分布，显著提高大型语言模型的文本生成质量，减少幻觉现象。该方法在常识推理和数学推理基准测试中表现优异，提升生成文本的真实性和准确性，且无需额外训练，具有广泛应用潜力。

多语言对照解码通过语言无关层跳过

BriefGPT - AI 论文速递 ·

本论文探讨了常识推理在对话人工智能中的应用，分析了大型语言模型（LLMs）如BlenderBot3和LaMDA的常识能力，并提出改进方法以提升同理心回应的生成性能。研究评估了情感分析的标准化方法，指出当前模型在处理模糊文本时的局限性，并强调了伦理风险和偏见问题。

会话式聊天机器人中对称推理的实证研究

BriefGPT - AI 论文速递 ·

本文提出了多种高效的微调方法，如Spectral DeTuning和LoRA-XS，旨在优化大型语言模型的训练性能和参数效率。研究表明，LoRA在某些任务中优于全精调，同时保持模型的正则化效果。此外，文章探讨了处理敏感数据时的隐私攻击风险，并通过实验验证了新方法在常识推理和数学推理任务中的优越性。

从 LoRA 权重中恢复数据集大小

BriefGPT - AI 论文速递 ·

本研究探讨了检索增强语言模型（RALMs）的性能提升，提出了迭代检索生成方法（Iter-RetGen），在多跳问答和常识推理任务中表现优异。研究发现大型语言模型在科学文档推理中存在证据捏造风险，并构建了WiTQA数据集，分析实体和关系对信息检索的影响，提出了改进模型推理能力的框架。

对大型语言模型的 “隐式” 检索鲁棒性的评估

BriefGPT - AI 论文速递 ·

本文提出了一种知识蒸馏方法，通过大型语言模型生成合理解释，提升小型自洽模型的推理能力。研究表明，采用级联分解和多模态框架等技术，能有效提高模型在科学问答和常识推理任务中的表现，超越传统方法。

研究 CoT 增强蒸馏之谜

BriefGPT - AI 论文速递 ·