InfoQ ·

演讲：如何在数PB的自动驾驶数据中解锁洞察力和实现发现

💡 原文英文，约7400词，阅读约需27分钟。

📝

内容提要

自动驾驶面临边缘案例挑战，这些罕见场景常被忽视。Kyra Mozley介绍了Perception 2.0，通过基础模型和嵌入技术提升视频数据理解，简化数据标注，增强模型灵活性和准确性。新方法支持自然语言搜索和分类，快速识别复杂场景，提高安全性和可靠性。

🎯

🔎

自动驾驶系统在处理常见驾驶场景时表现良好，但边缘案例的识别至关重要。这些罕见但潜在危险的情况，如骑自行车的人突然摔倒，往往被忽视。通过优先发现这些边缘案例，能够提高模型的安全性和可靠性，确保在真实世界中应对各种不可预测的事件。

Perception 2.0通过基础模型和嵌入技术，简化了数据处理流程，减少了对人工标注的依赖。这种方法不仅提高了数据标注的效率，还允许使用自然语言进行搜索和分类，使得复杂场景的识别更加快速和准确。这种灵活性对于应对不断变化的自动驾驶需求至关重要。

尽管自动标注技术能够显著提高数据处理速度，但仍存在模型误判和不一致性的问题。通过共识标注技术，可以生成多个候选标签并进行投票，从而提高标签的可靠性。这种方法在确保数据质量的同时，减少了对人工干预的需求，适应了大规模数据处理的需求。

❓

Perception 2.0是一种新方法，通过基础模型和嵌入技术提升视频数据理解，简化数据标注，增强模型灵活性和准确性。

边缘案例是指那些罕见、意外或不寻常的场景，这些场景在自动驾驶数据集中常常被忽视，但对安全性构成重大风险。

通过共识标注技术，可以提高自动标注的可靠性，减少模型的错误，确保生成的标签更准确。

Perception 2.0利用嵌入技术，使得用户可以通过自然语言查询来搜索视频数据，快速识别复杂场景。

传统计算机视觉方法依赖于特定任务模型和标注数据集，难以应对规模化挑战，且无法捕捉复杂场景。

基础模型可以从原始视频生成嵌入，支持搜索、聚类和分类等多种任务，提升数据处理的灵活性。

🏷️