小红花·文摘

Nano Banana推出了Gemini Omni，结合图像生成与编辑能力，用户可通过自然语言编辑视频，生成高质量内容。Omni支持图像、音频和文本输入，能够创建真实感强的场景，并具备物理推理能力。首个模型Gemini Omni Flash已上线，未来将扩展更多功能。

介绍Gemini Omni

The Keyword ·

具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

量子位 ·

AI 论文周报丨通用Agent开发/目标检测/开源物理推理模型……一文了解 AI 前沿动态

HyperAI超神经 ·

李飞飞指出，大语言模型在理解物理世界方面存在局限，因其主要依赖一维语言信号，而物理世界是三维的。尽管模型能处理语言任务，但在空间智能和物理推理上表现不佳，无法真正理解物理现象。这引发了对模型结合物理与多模态理解的讨论。

李飞飞一年前究竟说了啥？怎么又火了

量子位 ·

如何教导AI模型进行推理？借助人类

NVIDIA Blog ·

本研究提出APEX框架，旨在解决大型语言模型（LLMs）在物理交互建模中的局限性。通过物理驱动的任务规划，APEX显著提升了LLMs在现实任务中的表现，强调了物理推理在语言智能与实际任务之间的重要性。

APEX: Providing Real-time Insights for Large Language Models through Physics-Based Task Planning

BriefGPT - AI 论文速递 ·

该研究提出了PHYBench，一个评估大型语言模型在物理推理能力的新基准工具。通过设计500个基于现实物理场景的问题，研究发现现有模型在复杂物理推理方面明显不如人类专家，强调了改进模型的必要性。

PHYBench: A Comprehensive Evaluation of Physical Perception and Reasoning in Large Language Models

BriefGPT - AI 论文速递 ·

推理延展到真实物理世界，英伟达Cosmos-Reason1：8B具身推理表现超过OpenAI ο1

机器之心 ·

将哈密顿力学泛化到神经算子，何恺明团队又发新作，实现更高级物理推理

机器之心 ·

本研究提出了PhysReason基准，包含1200个物理推理题，发现现有模型在复杂物理推理任务中表现不足，尤其在应用物理定理和理解物理过程方面存在瓶颈。

PhysReason: A Comprehensive Benchmark for Physics-Based Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了“神经力场”（NFF）框架，以解决人工智能在有限经验下的物理推理和泛化问题。NFF通过可解释的力场有效捕捉核心物理概念，展现出优越的泛化能力。

Neural Force Field: Learning Universal Physical Representations from Few Examples

BriefGPT - AI 论文速递 ·

CueTip是一种互动式台球助手，解决了现有工具缺乏解释性和物理感知的问题。它结合自然语言界面、上下文物理推理和专家指导，提供新颖的辅导体验。实验表明，CueTip能提高胜率，展现出可靠性和有效性。

CueTip: An Interactive and Explainable Physics-aware Pool Assistant

BriefGPT - AI 论文速递 ·

本研究提出两种方法，通过模拟数据增强视觉-语言模型的物理推理能力，包括问答对微调和物理上下文构建器。实验结果表明，这些方法显著提升了模型在物理推理任务中的表现。

合成视觉：训练视觉-语言模型以理解物理学

BriefGPT - AI 论文速递 ·

本研究提出了LLMPhy框架，结合大型语言模型与物理引擎，解决机器人在复杂多体相互作用中的物理推理问题。通过TraySim数据集，显著提升了推理的精确性和效率，实验结果显示其在零-shot物理推理和参数估计方面表现优越。

LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models

BriefGPT - AI 论文速递 ·

本研究提出Kinetix框架，通过生成数千万个2D任务并利用Jax2D进行训练，展示了智能体在未见环境中的强大物理推理能力，且在特定任务微调上优于传统强化学习，为在线强化学习的预训练奠定基础。

Kinetix：通过开放式物理控制任务调查通用智能体的训练

BriefGPT - AI 论文速递 ·

研究提出GLIMO模型，通过代理世界模型收集和合成训练数据，提升大型语言模型在物理推理和机器人任务中的性能。实验表明，GLIMO显著提高了开源模型如LLaMA-3的表现，并具备与GPT-4竞争的潜力。研究还探讨了LLMs在机器人领域的应用，提出多模态GPT-4V结合自然语言和视觉感知来增强任务规划，提升机器人表现，并展望了未来LLMs的研究方向。

在不完美的世界模型中将大型语言模型与具身环境结合

BriefGPT - AI 论文速递 ·

本文介绍了一种无监督学习物体及其部件关系的物理推理方法，提出了大规模关节物体知识库AKB-48和C-VAM任务，以提升物体理解能力。同时，研究探讨了自然语言模型对物理概念的理解，并提出了SAGE框架，实现关节物体的多样化操作。

通过分析本体模板发现关节物体的概念知识

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（LLMs）在物理和数学推理中的能力，发现其在特定问题上存在局限性。通过增强上下文和使用物理模拟反馈，可以改善模型的推理能力。经过微调的模型在数学推导上表现优于其他模型，但对未知符号敏感。研究还提出了改进逻辑推理能力的策略，并构建了物理问题数据集，验证了LLMs在解决初中物理问题上的有效性，显示其在教育领域的潜力。

通过前提删除干预探索细粒度 LLM 物理推理的极限

BriefGPT - AI 论文速递 ·

本文介绍了一种结合对抗性模仿学习和强化学习的系统，用于训练物理模拟角色在复杂场景中的交互。该系统无需手动注释数据，能够处理未见物体和场景。研究提出了I-PHYRE框架，强调代理人的物理推理能力，并介绍了COINS生成模型，实现自然的人-场景互动。此外，构建了PHASE数据集和Physion++基准，以评估多智能体的社会互动和视觉物理预测能力。

PhyScene: 用于实体智能的可供物理交互的 3D 场景合成

BriefGPT - AI 论文速递 ·

本文总结了基于直觉物理的深度学习方法在物理推理方面的最新进展和技术，分为三个方面的物理推理，并将其组织为三种一般的技术方法，提出了该领域的六个分类任务。同时，本文强调了当前领域的挑战并提出了未来的研究方向。

基于人工智能因果模型的推断物理定律

BriefGPT - AI 论文速递 ·