让大模型学会“高维找茬”,中国联通新研究解决长文本图像检索痛点|AAAI 2026 Oral

量子位 量子位 ·

中国联通研究团队在AAAI 2026上发布了HiMo-CLIP模型,解决了长文本图像检索中的语义层级和单调性问题。该模型通过动态特征提取和对齐机制,显著提高了长短文本的检索精度,性能优于现有模型。

原文中文,约3000字,阅读约需8分钟。
阅读原文