小红花·文摘

Ferret是一种新型多模态大型语言模型，能够理解图像中的空间引用并进行准确描述。该模型在移动用户界面理解、视觉语言解析和对象检测等任务中表现出色。研究还提出了基于Transformer的视觉定位方法，显著提高了视觉理解能力，并展示了在细粒度视觉分类中的潜力。