让大模型学会“高维找茬”,中国联通新研究解决长文本图像检索痛点|AAAI 2026 Oral

💡 原文中文,约3000字,阅读约需8分钟。
📝

内容提要

中国联通研究团队在AAAI 2026上发布了HiMo-CLIP模型,解决了长文本图像检索中的语义层级和单调性问题。该模型通过动态特征提取和对齐机制,显著提高了长短文本的检索精度,性能优于现有模型。

🎯

关键要点

  • 中国联通研究团队在AAAI 2026上发布了HiMo-CLIP模型,解决了长文本图像检索中的语义层级和单调性问题。
  • HiMo-CLIP模型通过动态特征提取和对齐机制,显著提高了长短文本的检索精度。
  • 现有CLIP模型在处理长文本时表现不佳,未能有效捕捉语义层级。
  • HiMo-CLIP框架包含层级分解模块和单调性感知对比损失,能够自动提取语义差异点。
  • HiDe模块通过观察Batch内的“邻居”动态提取最具区分度的特征。
  • MoLo损失函数强制模型同时对齐全量文本和语义成分,实现单调性约束。
  • HiMo-CLIP在多个长短文本检索基准上展现出显著优势,仅使用1M训练数据就超越了使用100M和10B数据的方法。
  • HiMo-Docci数据集用于评估长文本的对齐效果,HiMo-CLIP保持了高单调性相关系数,表现优异。
➡️

继续阅读