Sekyoro的博客小屋 ·

协同感知算法(四):大模型、多模态以及新趋势

💡 原文中文，约19200字，阅读约需46分钟。

📝

内容提要

本文探讨了协同感知算法中的大模型和多模态技术，重点介绍了视觉语言模型及其在AI代理中的应用。通过结合视觉和语言信息，模型能够更好地理解复杂任务。此外，文章讨论了如何利用大语言模型（LLM）在自动驾驶和智能交通系统中实现协作感知，以提高安全性和效率。

🎯

关键要点

本文探讨了协同感知算法中的大模型和多模态技术，重点介绍视觉语言模型及其在AI代理中的应用。
视觉语言模型可以分为四类，包括将图像转换为嵌入特征、学习图像嵌入作为语言模型的输入前缀、使用交叉注意力机制融合视觉信息，以及同时训练图像和文本。
SimVLM和VisualBERT等模型通过不同的方式处理视觉和语言信息，以提高模型的理解能力。
AGENTSCODRIVER框架利用大型语言模型实现多车辆的协同驾驶，包含观察模块、推理引擎、记忆模块、强化反射模块和通信模块。
V2V-LLM模型通过车对车通信融合感知信息，提升自动驾驶的安全性和效率。
CoCa模型结合对比学习和图像到标题生成的优点，在多模态评估任务上实现了最先进的零样本转移。
MAGiC模型通过基于CLIP的分数引导生成与图像相关的文本，表现出良好的性能。
自我反思和记忆模块在智能体的决策过程中起着重要作用，能够提高智能体的推理能力和决策质量。

❓

延伸问答

什么是协同感知算法中的大模型和多模态技术？

协同感知算法中的大模型和多模态技术结合了视觉和语言信息，以提高模型对复杂任务的理解能力。

视觉语言模型的主要类型有哪些？

视觉语言模型主要分为四类：图像嵌入特征转换、冻结语言模型前缀的图像嵌入、交叉注意力机制融合视觉信息，以及同时训练图像和文本。

AGENTSCODRIVER框架的主要组成部分是什么？

AGENTSCODRIVER框架由观察模块、推理引擎、记忆模块、强化反射模块和通信模块组成。

V2V-LLM模型如何提升自动驾驶的安全性和效率？

V2V-LLM模型通过车对车通信融合感知信息，从而提高自动驾驶的安全性和效率。

CoCa模型在多模态评估任务上有什么优势？

CoCa模型结合了对比学习和图像到标题生成的优点，在多模态评估任务上实现了最先进的零样本转移。

自我反思和记忆模块在智能体决策中起什么作用？

自我反思和记忆模块提高了智能体的推理能力和决策质量，允许智能体从过去的行为中学习和改进。

🏷️

继续阅读

CVPR 2026，英伟达特斯拉Waymo一块听中国公司讲物理AI
小鹏在CVPR 2026展示了其物理AI技术，首次完整展示世界模型技术图谱。该模型具备主动思考、可控生成和长时序推演能力，结合第二代VLA，提升了自动驾驶...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
A股账户可以买Robotaxi了
文远知行和小马智行同日宣布被纳入港股通，标志着Robotaxi企业进入主流资产类别。两家公司在自动驾驶领域快速扩张，尽管面临亏损，但市场表现稳健。港股通的...
便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...