小红花·文摘

ICRA 2025｜清华x光轮：自驾世界模型生成和理解事故场景

机器之心 ·

本文提出了一种基于自然语言描述的目标跟踪方法，旨在提升跟踪性能的灵活性和准确性。通过构建带语言注释的大型数据库和引入视觉-语言模块，显著增强了多目标跟踪的泛化能力。研究设计了统一的跟踪器UVLTrack，能够处理多种参考设置，并在多个数据集上表现优异。此外，提出的新基准VLT-MI和E.T.基准为多模态跟踪和视频理解提供了新的评估方法和见解。

基于大型语言模型的多模态多样文本视觉语言跟踪基准

BriefGPT - AI 论文速递 ·

研究人员提出了MolBind框架，利用多模态学习将分子和自然语言描述整合到药物发现中。他们通过对比学习训练多模态编码器，实现了多模态语义对齐。此外，他们构建了高质量的数据集MolBind-M4，包含多种模态的配对数据。MolBind展示了优越的零样本学习性能，能够捕捉多种模态的潜在语义。

MolFusion: 分子表示的多模态融合学习 -- 基于多粒度视图

BriefGPT - AI 论文速递 ·

研究人员提出了MolBind框架，利用多模态学习将分子和自然语言描述整合到药物发现中。他们通过对比学习训练多模态编码器，实现了多模态语义对齐。MolBind-M4是一个高质量的数据集，包含图-语言、构象-语言、图-构象和构象-蛋白质配对数据，用于MolBind的有效预训练。MolBind展示了优越的零样本学习性能，能够捕捉多种模态的潜在语义。

生物基础模型之间的多模态迁移学习

BriefGPT - AI 论文速递 ·

分子空间：通过知识融合在统一的多模空间中享受自由午餐

BriefGPT - AI 论文速递 ·

本文研究了使用自然语言描述增强化学预测模型的方法。引入了一种新方法TextReact，通过利用文献中的文本来增强预测化学。实证验证表明，TextReact优于仅基于分子数据训练的最先进的化学信息模型。

一种用于化学反应预测的自反馈知识获取方法

BriefGPT - AI 论文速递 ·

该文章介绍了一个包含自然语言描述复杂机器人任务的数据集，旨在提高机器人与人类之间的互动能力。研究人员测试了多种最先进的视觉和语言导航模型，但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但仍有改进空间。

同步辐射光束线虚拟科学伴侣：一个原型

BriefGPT - AI 论文速递 ·

该研究介绍了一个包含自然语言描述复杂机器人任务的数据集，旨在提高机器人与人类之间的互动能力。研究人员测试了多种最先进的视觉和语言导航模型，但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有改进空间。

使用学习排序方法在物理世界搜索引擎中识别日常物体

BriefGPT - AI 论文速递 ·

Text2Scene模型能够从自然语言描述中生成各种形式的场景表示，通过逐步生成对象和属性来学习生成场景，结果可解释。

场景条件下的三维物体风格化与组合

BriefGPT - AI 论文速递 ·

GenZI是第一个零样本方法，用于生成3D人与场景的交互。通过从大型视觉-语言模型中提取交互先验知识，利用自然语言描述和场景中的粗略点位置，合成场景中的3D人模型的姿态和形状。与传统方法相比，GenZI不需要捕获3D交互数据，使用简单易用的文字提示进行灵活控制。实验证明该方法适用于各种场景类型。

无模板重构人物 - 物体交互与程序交互生成

BriefGPT - AI 论文速递 ·

Text2Scene模型能够从自然语言描述中生成各种形式的场景表示，不使用GANs，通过生成对象和属性来学习生成场景。该方法生成卡通样式的场景、对象布局和合成图像，结果可解释。

数据到文本生成的组合推广

BriefGPT - AI 论文速递 ·

本文介绍了一个包含自然语言描述复杂机器人任务的数据集，旨在提高机器人与人类之间的互动能力。作者测试了多种最先进的视觉和语言导航模型，但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有改进空间。

实体机器人的视觉语义导航

BriefGPT - AI 论文速递 ·

本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的3D视觉定位任务的方法，并提出了两个新的数据集STRefer和LifeRefer。该方法实现了最先进的性能，对于野外3D视觉定位的研究具有重要意义，并有着提升自动驾驶和服务机器人发展的巨大潜力。

Ferret: 任意粒度引用和定位任何内容

BriefGPT - AI 论文速递 ·

Google Home将推出“帮我编写脚本”功能，用户只需用自然语言描述所需操作，然后生成代码。该功能由生成式人工智能支持，每天生成更准确、个性化的脚本。用户可以在脚本编辑器中轻松复制、粘贴和激活代码，并随时进行修改。

Google Home 的新 AI 功能助您创建自定义例程

The Keyword ·

该文介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务，并提出了 Multi3DRefer 扩展了 ScanRefer 数据集和任务，引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。同时，利用 CLIP 的 2D 特征和对比学习在线渲染对象提案，构建了更好的基准线，在 ScanRefer 基准测试上超越了最新技术。

Multi3DRefer: 文本描述与多个 3D 对象的关联

BriefGPT - AI 论文速递 ·