本研究探讨了多模态机器学习系统中对抗攻击的防御策略,特别是在文本与图像对齐模型中。引入持久同调概念,提出了一种新型拓扑对比损失,并设计了算法将拓扑特征反向传播至输入样本,为对抗检测提供了新方法。
本研究提出了TextMatch框架,旨在解决文本与图像生成模型的对齐问题。通过多模态优化和大型语言模型评估语义一致性,动态调整提示,从而显著提高文本与图像的一致性。
本研究评估了四种文本与图像一致性指标(CLIPScore、TIFA、VPEval和DSG),结果显示它们未达到理想标准,且对语言和视觉特性的敏感性不足。
完成下面两步后,将自动完成登录并继续当前操作。