本研究探讨了印度河流域文字与西藏彝族走廊图像系统的历史联系。通过混合CNN-Transformer架构,发现两者的视觉相似性高达六倍,揭示了南亚与东亚文化传播的复杂网络。
本研究提出了一套自动评估指标,旨在改进图像再创造的评估机制。该指标基于机器翻译,涵盖对象、嵌入和视觉语言模型。研究发现,专有视觉语言模型在文化相关性和语义等价性方面表现最佳,而视觉编码器在视觉相似性测量上表现突出,为图像再创造的自动评估提供了理论和实践框架。
本研究提出了一种新颖的藏语对抗文本生成方法TSCheater,利用视觉相似音节的特点,建立了藏文音节视觉相似性数据库TSVSDB,从而提高了对抗攻击的有效性和文本质量,并构建了首个藏语对抗鲁棒性评估基准AdvTS。
SmallCap是一种轻量快速的图像字幕生成模型,通过外部kNN内存和视觉相似性知识检索器提高生成质量。实验表明,显式外部存储器显著改善了字幕质量,为大规模图像字幕生成研究开辟了新方向。
本文探讨了深度度量学习中的多种方法,包括密度测量的集成、半监督学习和基于语言指导的视觉相似性学习。研究提出了新的模型和损失函数,以提高模型的泛化能力和性能,并在多个数据集上取得显著改进。
完成下面两步后,将自动完成登录并继续当前操作。