AIxiv专栏促进学术交流,报道2000多篇自动驾驶技术文章。光轮智能与多所高校合作提出AVD2框架,通过生成事故视频和自然语言描述,提升自动驾驶系统对事故场景的理解与预防能力,提供高质量数据,助力安全技术落地。
本文提出了一种基于自然语言描述的目标跟踪方法,旨在提升跟踪性能的灵活性和准确性。通过构建带语言注释的大型数据库和引入视觉-语言模块,显著增强了多目标跟踪的泛化能力。研究设计了统一的跟踪器UVLTrack,能够处理多种参考设置,并在多个数据集上表现优异。此外,提出的新基准VLT-MI和E.T.基准为多模态跟踪和视频理解提供了新的评估方法和见解。
研究人员提出了MolBind框架,利用多模态学习将分子和自然语言描述整合到药物发现中。他们通过对比学习训练多模态编码器,实现了多模态语义对齐。此外,他们构建了高质量的数据集MolBind-M4,包含多种模态的配对数据。MolBind展示了优越的零样本学习性能,能够捕捉多种模态的潜在语义。
研究人员提出了MolBind框架,利用多模态学习将分子和自然语言描述整合到药物发现中。他们通过对比学习训练多模态编码器,实现了多模态语义对齐。MolBind-M4是一个高质量的数据集,包含图-语言、构象-语言、图-构象和构象-蛋白质配对数据,用于MolBind的有效预训练。MolBind展示了优越的零样本学习性能,能够捕捉多种模态的潜在语义。
本文研究了使用自然语言描述增强化学预测模型的方法。引入了一种新方法TextReact,通过利用文献中的文本来增强预测化学。实证验证表明,TextReact优于仅基于分子数据训练的最先进的化学信息模型。
该文章介绍了一个包含自然语言描述复杂机器人任务的数据集,旨在提高机器人与人类之间的互动能力。研究人员测试了多种最先进的视觉和语言导航模型,但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但仍有改进空间。
该研究介绍了一个包含自然语言描述复杂机器人任务的数据集,旨在提高机器人与人类之间的互动能力。研究人员测试了多种最先进的视觉和语言导航模型,但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但与人类表现相比仍有改进空间。
Text2Scene模型能够从自然语言描述中生成各种形式的场景表示,通过逐步生成对象和属性来学习生成场景,结果可解释。
GenZI是第一个零样本方法,用于生成3D人与场景的交互。通过从大型视觉-语言模型中提取交互先验知识,利用自然语言描述和场景中的粗略点位置,合成场景中的3D人模型的姿态和形状。与传统方法相比,GenZI不需要捕获3D交互数据,使用简单易用的文字提示进行灵活控制。实验证明该方法适用于各种场景类型。
Text2Scene模型能够从自然语言描述中生成各种形式的场景表示,不使用GANs,通过生成对象和属性来学习生成场景。该方法生成卡通样式的场景、对象布局和合成图像,结果可解释。
本文介绍了一个包含自然语言描述复杂机器人任务的数据集,旨在提高机器人与人类之间的互动能力。作者测试了多种最先进的视觉和语言导航模型,但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但与人类表现相比仍有改进空间。
本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的3D视觉定位任务的方法,并提出了两个新的数据集STRefer和LifeRefer。该方法实现了最先进的性能,对于野外3D视觉定位的研究具有重要意义,并有着提升自动驾驶和服务机器人发展的巨大潜力。
Google Home将推出“帮我编写脚本”功能,用户只需用自然语言描述所需操作,然后生成代码。该功能由生成式人工智能支持,每天生成更准确、个性化的脚本。用户可以在脚本编辑器中轻松复制、粘贴和激活代码,并随时进行修改。
该文介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务,并提出了 Multi3DRefer 扩展了 ScanRefer 数据集和任务,引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。同时,利用 CLIP 的 2D 特征和对比学习在线渲染对象提案,构建了更好的基准线,在 ScanRefer 基准测试上超越了最新技术。
完成下面两步后,将自动完成登录并继续当前操作。