本研究探讨了印度河流域文字与西藏彝族走廊图像系统的历史联系。通过混合CNN-Transformer架构,发现两者的视觉相似性高达六倍,揭示了南亚与东亚文化传播的复杂网络。
本研究提出了一种新颖的藏语对抗文本生成方法TSCheater,利用视觉相似音节的特点,建立了藏文音节视觉相似性数据库TSVSDB,从而提高了对抗攻击的有效性和文本质量,并构建了首个藏语对抗鲁棒性评估基准AdvTS。
本研究通过结合视觉相似性检索器和可微分编码器,利用外部kNN内存提升生成效果。在COCO和nocaps数据集上,外部存储器显著提高了字幕质量,特别是在大规模检索库中。
该研究论文介绍了LaMI策略在图像识别中的应用,通过构建视觉概念和分析类别之间的视觉相似性,解决了概念表示不足和过度拟合的问题,且在无需外部训练资源的条件下表现出卓越的性能。
DCGen是一种将网页设计转化为UI代码的方法,通过屏幕截图直接生成UI代码,提高了14%的视觉相似性性能。
完成下面两步后,将自动完成登录并继续当前操作。