双焦点:整合文本式个体检索中的正负描述符的统一框架
原文中文,约200字,阅读约需1分钟。发表于: 。Text-based person retrieval is enhanced through the integration of positive and negative descriptors in the DualFocus framework, which employs Dual Attribute Prompt Learning and Dynamic Tokenwise...
该研究提出了一种新的框架,通过双重聚焦机制提升了视觉-语言任务的性能。该模型综合考虑全局、细节和综合因素,利用图像信息和问题响应进行深入分析,减少了幻觉现象,并提高了各种视觉-语言任务的性能。