小红花·文摘

本研究提出了一种名为OneDiff的新模型，用于准确描述相近图像之间的变化。该模型利用了具有高度鲁棒性的视觉-语言模型架构，结合了孪生图像编码器和Visual Delta Module，可以精确检测和表达图像对之间的细微差异。通过耦合样本训练和多任务学习的双阶段策略进行训练，并采用新开发的DiffCap数据集，提高了模型的鲁棒性。OneDiff在准确性和适应性方面优于现有模型，平均CIDEr分数提高了85％。该研究为检测和描述视觉差异的更多功能和更高效应用铺平了道路。