小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

DeepFusion提出了一种模块化的多模态架构,结合激光雷达、相机和雷达进行3D物体检测,实验表明其在远距离检测和激光点密度方面表现优异。研究显示雷达与相机的融合在低能见度条件下提升了自动驾驶的感知能力,RCBEVDet++框架进一步改善了融合性能,对自主驾驶系统的感知能力产生重要影响。

一种资源高效的融合网络用于鸟瞰视图中的目标检测,采用摄像头和原始雷达数据

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

本文介绍了多个自动驾驶视觉问答(VQA)任务和模型,如NuScenes-QA、Talk2BEV和DriveLM。研究表明,结合多模态架构和图结构推理的模型在驾驶场景中表现优越,提升了推理能力和响应效率。新提出的MiniDrive框架有效解决了计算开销和多图像处理问题,为自动驾驶系统提供了高效解决方案。

LaVida Drive:用于自主驾驶的视觉-文本交互视觉语言模型,具有标记选择、恢复和增强功能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

基于大型语言模型的自动驾驶研究显示出潜力,提出了多模态语言模型架构以提升驾驶情境理解。研究评估了大型语言模型在空间识别和交通规则遵守方面的准确性,并开发了DriveMLM框架以实现闭环驾驶。研究还指出当前模型在动态环境中的不足,呼吁改进基础模型以增强适用性。

多模态大语言模型驱动的自动驾驶场景测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z
抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法

智源研究院与大连理工大学、北京大学等合作推出了新一代无编码器的视觉语言模型EVE。EVE通过去除视觉编码器,能处理任意图像长宽比,并通过精细化的训练策略和额外的视觉监督,在多个视觉-语言基准测试中表现出色,与基于编码器的主流多模态方法相媲美。EVE的提出为纯解码器的原生多模态架构发展提供了一条透明且高效的路径。

抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法

机器之心
机器之心 · 2024-07-16T07:00:49Z

本文介绍了一种基于变压器的场景文本检测模型,能够有效检测文本并获取边界框。该模型在多个数据集上取得了先进成果,提出了隐式特征对齐方法,提升了多行文本识别能力,并展示了新的多模态架构和文本引导的域泛化框架,增强了文本检测的准确性和效率。

文本分组适配器:为布局分析适配预训练的文本检测器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

本文探讨了利用深度强化学习提升自动驾驶性能的方法,包括多模态架构、层次运动规划和可解释性模型。这些方法在复杂驾驶场景中表现优异,有效提高决策性能并减少碰撞,推动自动驾驶技术的发展。

深度强化学习自动驾驶决策的揭秘

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码