TechWeb 全站精华 ·

辅助驾驶，如何从「猴子」进化到「人类」

💡 原文中文，约7600字，阅读约需18分钟。

📝

内容提要

理想汽车的自动驾驶技术从“端到端+ VLM视觉语言模型”演变为“VLA视觉语言动作模型”，后者具备更强的思考、沟通和学习能力，能更好地处理复杂场景。通过大量数据和仿真测试，理想汽车旨在提升安全性和驾驶舒适度，实现更高效的自动驾驶体验。

🎯

🔎

理想汽车的辅助驾驶技术经历了从机械时期到猴子时期，再到人类时期的演变。每个阶段的技术架构都有其局限性，尤其是早期的VLM模型在复杂场景中无法直接控车。VLA模型的引入标志着辅助驾驶技术的重大进步，具备更强的思考和学习能力，能够更好地应对复杂的驾驶环境。

VLA模型的成功依赖于丰富的数据基础和强大的算力支持。理想汽车通过仿真测试提升研发效率，减少实车测试的成本和时间。随着数据量的增加，模型性能的提升却逐渐放缓，强调了高质量数据的重要性。未来，如何在数据和算法之间找到平衡，将是提升自动驾驶技术的关键。

理想汽车的目标是将辅助驾驶的安全性提升到人类驾驶的10倍，但在实现这一目标的过程中，安全性与驾驶舒适度之间存在一定的矛盾。用户体验的提升不仅依赖于安全性，还包括行车的舒适度。因此，如何在安全、舒适和效率之间找到最佳平衡，将是未来发展的重要方向。

❓

VLA模型具备思考、沟通、记忆和自我提升能力，推理速度比VLM快3倍，能够更好地处理复杂场景。

理想汽车的目标是将辅助驾驶的安全性提升到人类驾驶的10倍，通过VLA模型的优化和大量数据训练实现。

VLA模型的训练需要数据、算法、算力和工程能力的支持，尤其是丰富的数据基础和强大的算力。

理想汽车通过仿真测试进行场景重建，能够在低成本下进行大量测试，提升研发效率。

VLA模型采用混合专家模型架构，在推理速度和模型容量之间进行了优化平衡。

理想汽车的自动驾驶技术经历了机械时期、猴子时期（VLM模型）和人类时期（VLA模型）的演变。

🏷️