机器之心 ·

YOLOe问世，实时观察一切，统一开放物体检测和分割

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

YOLOE是一种新型目标检测技术，具备文本、视觉和无提示识别能力。它通过轻量级网络和区域文本对齐策略，提高了模型的灵活性和效率，支持实时检测和分割，适用于多种场景。实验表明，YOLOE在性能和速度上优于传统YOLO模型。

🎯

🔎

YOLOE在传统YOLO架构的基础上，采用了RepRTA、SAVPE和LRPC等新策略，显著提升了模型的灵活性和效率。这些创新使得YOLOE能够在多模态提示下进行实时检测和分割，适应开放场景的需求，展现出更接近人类视觉的能力。

实验结果显示，YOLOE在不同模型尺度上实现了效率与零样本性能的良好平衡。尽管在某些AP指标上略逊于YOLO-Worldv2，但其在训练时间和推理速度上的优势，使其在实际应用中更具竞争力，尤其是在需要快速响应的场景中。

YOLOE的强大功能使其适用于多种提示方式，包括文本、视觉和无提示场景。研究人员的可视化分析表明，YOLOE在不同场景下均能准确识别和分割物体，这为其在智能监控、自动驾驶等领域的应用提供了广阔的前景。

❓

YOLOE是一种新型目标检测技术，具备文本、视觉和无提示识别能力，支持实时检测和分割。

YOLOE在性能和速度上优于传统YOLO模型，训练时间更短，且在不同模型尺度上表现出良好的效率和平衡。

YOLOE通过RepRTA策略支持文本提示，通过SAVPE策略支持视觉提示，分别将它们编码为规范化的提示嵌入。

YOLOE将无提示场景表述为检索问题，通过LRPC策略高效识别图像中的所有有名称的物体。

实验表明，YOLOE的训练时间少于其他对比模型，推理速度提高，且在检测和分割性能上表现优异。

YOLOE适用于多种场景，包括文本提示、视觉提示和无提示的物体检测与分割。

🏷️