该研究提出了一种两阶段框架,结合文本反演网络和模态-任务双重对齐,以解决复合图像检索中的高成本和零-shot能力不足的问题。实验结果表明,该方法在多个基准上表现优异,同时降低了训练时间和计算成本。
完成下面两步后,将自动完成登录并继续当前操作。