让大模型学会“高维找茬”,中国联通新研究解决长文本图像检索痛点|AAAI 2026 Oral
💡
原文中文,约3000字,阅读约需8分钟。
📝
内容提要
中国联通研究团队在AAAI 2026上发布了HiMo-CLIP模型,解决了长文本图像检索中的语义层级和单调性问题。该模型通过动态特征提取和对齐机制,显著提高了长短文本的检索精度,性能优于现有模型。
🎯
关键要点
- 中国联通研究团队在AAAI 2026上发布了HiMo-CLIP模型,解决了长文本图像检索中的语义层级和单调性问题。
- HiMo-CLIP模型通过动态特征提取和对齐机制,显著提高了长短文本的检索精度。
- 现有CLIP模型在处理长文本时表现不佳,未能有效捕捉语义层级。
- HiMo-CLIP框架包含层级分解模块和单调性感知对比损失,能够自动提取语义差异点。
- HiDe模块通过观察Batch内的“邻居”动态提取最具区分度的特征。
- MoLo损失函数强制模型同时对齐全量文本和语义成分,实现单调性约束。
- HiMo-CLIP在多个长短文本检索基准上展现出显著优势,仅使用1M训练数据就超越了使用100M和10B数据的方法。
- HiMo-Docci数据集用于评估长文本的对齐效果,HiMo-CLIP保持了高单调性相关系数,表现优异。
➡️