自动驾驶三位一体:视觉、自然语言与行动
💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
Wayve推出了LINGO-1,这是一种专门用于自动驾驶的视觉问答模型,可以帮助解释自动驾驶模型的行为。他们计划将LINGO的自然语言、推理和规划能力集成到闭环驾驶模型中,以提高驾驶性能、安全性和可解释性。
🎯
关键要点
- Wayve推出了LINGO-1,一种用于自动驾驶的视觉问答模型。
- LINGO-1可以帮助解释自动驾驶模型的行为,涉及感知、反事实、规划、推理和注意力等任务。
- Wayve计划将LINGO的自然语言、推理和规划能力集成到闭环驾驶模型中,以提高驾驶性能、安全性和可解释性。
- 闭环驾驶模型的愿景、自然语言和行动构成了未来自动驾驶的三位一体。
- LINGO-1模型能够回答与感知、规划和推理相关的问题。
- 该模型通过大量人类驾驶场景的数据集进行训练,数据集包含精心设计的自然语言问题及其对应的人类生成答案和描述。
- Wayve的闭环驾驶模型中,推理成为决策的显性因素,提升了模型的可解释性。
- 例如,在拥挤的市中心,模型应能描述场景并建议减速,这种推理应影响决策。
- 训练闭环驾驶模型需要大量数据,包括人类驾驶场景、良好的感知体现、自然语言指令和反馈。
➡️