BriefGPT - AI 论文速递 ·

T-Rex2：通过文本 - 视觉提示协同实现通用物体检测

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

T-Rex是一种交互式物体计数模型，能够在零样例情况下进行开放集物体检测。研究提出了新的视觉提示方法和可扩展的对象检测流程，利用预训练模型和自我训练技术显著提高新类别的检测性能。此外，结合视觉和自然语言的神经架构B2T2在推理基准测试中表现优异，减少了错误率。

🎯

❓

T-Rex模型是一种交互式物体计数模型，能够在零样例情况下进行开放集物体检测。

用户可以通过标记参考图像上的点或框来指定感兴趣的物体，并通过视觉反馈进行交互式修正计数结果。

通过新的视觉提示方法、预训练模型和自我训练技术，T-Rex显著提高了新类别的检测性能。

该流程包含开放词汇表的对象检测器、区域提示学习和自我训练等部分。

B2T2在推理基准测试中表现优异，减少了25%的错误率。

T-Rex在全面的场景和挑战下展现出优异的零样例物体计数能力，具有潜在的实际应用场景。

🏷️