小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
ICRA 2025|清华x光轮:自驾世界模型生成和理解事故场景

AIxiv专栏促进学术交流,报道2000多篇自动驾驶技术文章。光轮智能与多所高校合作提出AVD2框架,通过生成事故视频和自然语言描述,提升自动驾驶系统对事故场景的理解与预防能力,提供高质量数据,助力安全技术落地。

ICRA 2025|清华x光轮:自驾世界模型生成和理解事故场景

机器之心
机器之心 · 2025-03-03T13:01:52Z

本文提出了一种基于自然语言描述的目标跟踪方法,旨在提升跟踪性能的灵活性和准确性。通过构建带语言注释的大型数据库和引入视觉-语言模块,显著增强了多目标跟踪的泛化能力。研究设计了统一的跟踪器UVLTrack,能够处理多种参考设置,并在多个数据集上表现优异。此外,提出的新基准VLT-MI和E.T.基准为多模态跟踪和视频理解提供了新的评估方法和见解。

基于大型语言模型的多模态多样文本视觉语言跟踪基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

本研究提出了一种基于视频预测和深度强化学习的观察型模仿学习方法,能够从视频中学习机器人技能,如扫地和推物品。结合自然语言描述,提升了机器人在复杂环境中的操作能力。研究表明,该方法在多项任务中显著提高了成功率,并在真实世界中表现良好。

基于下一个令牌预测的上下文模仿学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

本文介绍了一种基于手绘草图的增强扩散架构(SEK),用于生成个性化的3D场景。该方法结合外部知识库和图推理,提升了3D场景生成的质量,并提出了通过自然语言描述进行3D房间设计的创新方法,以满足AR/VR对3D内容的需求。实验结果表明,该方法在合成和真实数据集上表现优异。

Sketch2Scene:基于用户草图自动生成交互式3D游戏场景

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

本文探讨了为视觉障碍人士创建可访问漫画的自然语言描述,结合计算机视觉技术和多模态大型语言模型。研究表明,通过图像分析和神经语言模型,可以生成高质量的漫画描述,帮助视觉障碍者获取信息。

为盲人和低视力读者打造无障碍漫画

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-11T00:00:00Z

本文介绍了多种生成自然语言描述和图像标注的方法,包括神经网络和大型语言模型的应用、Few-Shot Stylized Visual Captioning框架以及可分解的图像字幕生成过程。这些方法在多样性、准确性和效率上表现优异,推动了自动图像描述技术的发展。

因素条件下的言语风格字幕生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

本文探讨了利用自然语言描述增强化学预测模型的方法,提出了TextReact,通过对文献中的文本与分子表示进行对齐,显著提升了反应条件推荐和逆合成的预测性能。同时,研究介绍了多种基于预训练语言模型的创新方法,强调了文本在化学反应预测中的重要性。

ReactXT:通过反应上下文化的分子 - 文本预训练理解分子之 “反应关系

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-23T00:00:00Z

该研究提出了DiffSkill框架,通过图像扩散模型和可微分物理模拟,自动生成机器人技能学习任务,减少人类监督。利用少量示范合成丰富数据集,提升机器人在长期任务中的表现。DiffVL方法允许用户通过自然语言描述操控任务,DiffusionBot则生成软体机器人形态,增强任务泛化能力。

DiffGen: 通过可微分物理仿真、可微分渲染和视觉 - 语言模型生成机器人演示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-12T00:00:00Z

本文介绍了一种基于自然语言描述的图像编辑方法,结合CLIP模型和扩散概率模型进行区域编辑。该方法在图像真实感、背景保护和文本匹配方面表现优越,支持对象添加、替换和背景更换等多种编辑应用。研究还探讨了不同指导策略的效果,提出了DiffusionCLIP和LayerDiffusion等新方法,展示了图像编辑领域的创新潜力。

TexSliders: 基於 CLIP 空間的擴散式紋理編輯

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-01T00:00:00Z

本文介绍了Text2Light框架,该框架利用自然语言描述生成高分辨率HDR全景图,结合双重代码本和预训练的CLIP模型,支持360度图像的高动态范围表示。同时,研究提出了多种基于神经网络的照明处理方法,以提升虚拟物体在现实环境中的真实感和渲染效果。

EdgeRelight360:高效实时处理设备视频肖像重光的基于文本条件的 360 度 HDR 图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-15T00:00:00Z

该文章介绍了一个包含自然语言描述复杂机器人任务的数据集,旨在提高机器人与人类之间的互动能力。研究人员测试了多种最先进的视觉和语言导航模型,但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但仍有改进空间。

同步辐射光束线虚拟科学伴侣:一个原型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-28T00:00:00Z

该研究介绍了一个包含自然语言描述复杂机器人任务的数据集,旨在提高机器人与人类之间的互动能力。研究人员测试了多种最先进的视觉和语言导航模型,但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但与人类表现相比仍有改进空间。

使用学习排序方法在物理世界搜索引擎中识别日常物体

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-26T00:00:00Z

Text2Scene模型能够从自然语言描述中生成各种形式的场景表示,通过逐步生成对象和属性来学习生成场景,结果可解释。

场景条件下的三维物体风格化与组合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-19T00:00:00Z

GenZI是第一个零样本方法,用于生成3D人与场景的交互。通过从大型视觉-语言模型中提取交互先验知识,利用自然语言描述和场景中的粗略点位置,合成场景中的3D人模型的姿态和形状。与传统方法相比,GenZI不需要捕获3D交互数据,使用简单易用的文字提示进行灵活控制。实验证明该方法适用于各种场景类型。

无模板重构人物 - 物体交互与程序交互生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-12T00:00:00Z

Text2Scene模型能够从自然语言描述中生成各种形式的场景表示,不使用GANs,通过生成对象和属性来学习生成场景。该方法生成卡通样式的场景、对象布局和合成图像,结果可解释。

数据到文本生成的组合推广

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-05T00:00:00Z

本文介绍了一个包含自然语言描述复杂机器人任务的数据集,旨在提高机器人与人类之间的互动能力。作者测试了多种最先进的视觉和语言导航模型,但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但与人类表现相比仍有改进空间。

实体机器人的视觉语义导航

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-28T00:00:00Z

本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的3D视觉定位任务的方法,并提出了两个新的数据集STRefer和LifeRefer。该方法实现了最先进的性能,对于野外3D视觉定位的研究具有重要意义,并有着提升自动驾驶和服务机器人发展的巨大潜力。

Ferret: 任意粒度引用和定位任何内容

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z

Google Home将推出“帮我编写脚本”功能,用户只需用自然语言描述所需操作,然后生成代码。该功能由生成式人工智能支持,每天生成更准确、个性化的脚本。用户可以在脚本编辑器中轻松复制、粘贴和激活代码,并随时进行修改。

Google Home 的新 AI 功能助您创建自定义例程

The Keyword
The Keyword · 2023-10-02T17:00:00Z

该文介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务,并提出了 Multi3DRefer 扩展了 ScanRefer 数据集和任务,引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。同时,利用 CLIP 的 2D 特征和对比学习在线渲染对象提案,构建了更好的基准线,在 ScanRefer 基准测试上超越了最新技术。

Multi3DRefer: 文本描述与多个 3D 对象的关联

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码