AIxiv专栏促进学术交流,报道2000多篇自动驾驶技术文章。光轮智能与多所高校合作提出AVD2框架,通过生成事故视频和自然语言描述,提升自动驾驶系统对事故场景的理解与预防能力,提供高质量数据,助力安全技术落地。
本文提出了一种基于自然语言描述的目标跟踪方法,旨在提升跟踪性能的灵活性和准确性。通过构建带语言注释的大型数据库和引入视觉-语言模块,显著增强了多目标跟踪的泛化能力。研究设计了统一的跟踪器UVLTrack,能够处理多种参考设置,并在多个数据集上表现优异。此外,提出的新基准VLT-MI和E.T.基准为多模态跟踪和视频理解提供了新的评估方法和见解。
本研究提出了一种基于视频预测和深度强化学习的观察型模仿学习方法,能够从视频中学习机器人技能,如扫地和推物品。结合自然语言描述,提升了机器人在复杂环境中的操作能力。研究表明,该方法在多项任务中显著提高了成功率,并在真实世界中表现良好。
本文介绍了一种基于手绘草图的增强扩散架构(SEK),用于生成个性化的3D场景。该方法结合外部知识库和图推理,提升了3D场景生成的质量,并提出了通过自然语言描述进行3D房间设计的创新方法,以满足AR/VR对3D内容的需求。实验结果表明,该方法在合成和真实数据集上表现优异。
本文探讨了为视觉障碍人士创建可访问漫画的自然语言描述,结合计算机视觉技术和多模态大型语言模型。研究表明,通过图像分析和神经语言模型,可以生成高质量的漫画描述,帮助视觉障碍者获取信息。
本文介绍了多种生成自然语言描述和图像标注的方法,包括神经网络和大型语言模型的应用、Few-Shot Stylized Visual Captioning框架以及可分解的图像字幕生成过程。这些方法在多样性、准确性和效率上表现优异,推动了自动图像描述技术的发展。
本文探讨了利用自然语言描述增强化学预测模型的方法,提出了TextReact,通过对文献中的文本与分子表示进行对齐,显著提升了反应条件推荐和逆合成的预测性能。同时,研究介绍了多种基于预训练语言模型的创新方法,强调了文本在化学反应预测中的重要性。
该研究提出了DiffSkill框架,通过图像扩散模型和可微分物理模拟,自动生成机器人技能学习任务,减少人类监督。利用少量示范合成丰富数据集,提升机器人在长期任务中的表现。DiffVL方法允许用户通过自然语言描述操控任务,DiffusionBot则生成软体机器人形态,增强任务泛化能力。
本文介绍了一种基于自然语言描述的图像编辑方法,结合CLIP模型和扩散概率模型进行区域编辑。该方法在图像真实感、背景保护和文本匹配方面表现优越,支持对象添加、替换和背景更换等多种编辑应用。研究还探讨了不同指导策略的效果,提出了DiffusionCLIP和LayerDiffusion等新方法,展示了图像编辑领域的创新潜力。
本文介绍了Text2Light框架,该框架利用自然语言描述生成高分辨率HDR全景图,结合双重代码本和预训练的CLIP模型,支持360度图像的高动态范围表示。同时,研究提出了多种基于神经网络的照明处理方法,以提升虚拟物体在现实环境中的真实感和渲染效果。
该文章介绍了一个包含自然语言描述复杂机器人任务的数据集,旨在提高机器人与人类之间的互动能力。研究人员测试了多种最先进的视觉和语言导航模型,但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但仍有改进空间。
该研究介绍了一个包含自然语言描述复杂机器人任务的数据集,旨在提高机器人与人类之间的互动能力。研究人员测试了多种最先进的视觉和语言导航模型,但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但与人类表现相比仍有改进空间。
Text2Scene模型能够从自然语言描述中生成各种形式的场景表示,通过逐步生成对象和属性来学习生成场景,结果可解释。
GenZI是第一个零样本方法,用于生成3D人与场景的交互。通过从大型视觉-语言模型中提取交互先验知识,利用自然语言描述和场景中的粗略点位置,合成场景中的3D人模型的姿态和形状。与传统方法相比,GenZI不需要捕获3D交互数据,使用简单易用的文字提示进行灵活控制。实验证明该方法适用于各种场景类型。
Text2Scene模型能够从自然语言描述中生成各种形式的场景表示,不使用GANs,通过生成对象和属性来学习生成场景。该方法生成卡通样式的场景、对象布局和合成图像,结果可解释。
本文介绍了一个包含自然语言描述复杂机器人任务的数据集,旨在提高机器人与人类之间的互动能力。作者测试了多种最先进的视觉和语言导航模型,但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但与人类表现相比仍有改进空间。
本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的3D视觉定位任务的方法,并提出了两个新的数据集STRefer和LifeRefer。该方法实现了最先进的性能,对于野外3D视觉定位的研究具有重要意义,并有着提升自动驾驶和服务机器人发展的巨大潜力。
Google Home将推出“帮我编写脚本”功能,用户只需用自然语言描述所需操作,然后生成代码。该功能由生成式人工智能支持,每天生成更准确、个性化的脚本。用户可以在脚本编辑器中轻松复制、粘贴和激活代码,并随时进行修改。
该文介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务,并提出了 Multi3DRefer 扩展了 ScanRefer 数据集和任务,引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。同时,利用 CLIP 的 2D 特征和对比学习在线渲染对象提案,构建了更好的基准线,在 ScanRefer 基准测试上超越了最新技术。
完成下面两步后,将自动完成登录并继续当前操作。