量子位 ·

让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点｜AAAI 2026 Oral

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

中国联通研究团队在AAAI 2026上发布了HiMo-CLIP模型，解决了长文本图像检索中的语义层级和单调性问题。该模型通过动态特征提取和对齐机制，显著提高了长短文本的检索精度，性能优于现有模型。

🎯

🔎

HiMo-CLIP模型通过层级分解模块和单调性感知对比损失，解决了长文本图像检索中的语义层级和单调性问题。这种创新机制使得模型能够动态提取最具区分度的特征，提升了对复杂文本的理解能力，具有重要的应用价值。

现有的CLIP模型在处理长文本时常常表现不佳，无法有效捕捉语义层级，导致对齐分数下降。HiMo-CLIP的出现为这一痛点提供了解决方案，强调了在多模态检索中，文本描述的详细程度与图像匹配度之间的关系。

HiMo-CLIP在仅使用1M训练数据的情况下，超越了使用100M和10B数据的方法，显示出其在数据效率上的优势。这一特性使得模型在实际应用中更具可行性，尤其是在数据获取困难的场景中。

❓

HiMo-CLIP模型通过动态特征提取和对齐机制，解决了长文本图像检索中的语义层级和单调性问题，显著提高了检索精度。

HiMo-CLIP通过层级分解模块（HiDe）动态提取语义成分，自动捕捉语境下的语义差异点，从而处理长文本的语义层级问题。

HiMo-CLIP在多个长短文本检索基准上展现出显著优势，仅使用1M训练数据就超越了使用100M和10B数据的方法。

MoLo损失函数强制模型同时对齐全量文本和语义成分，实现单调性约束，确保图文匹配的准确性。

HiMo-CLIP仅使用1M训练数据就能超越使用100M和10B数据的方法，显示出其高效的数据利用能力。

HiMo-CLIP的设计使得对齐机制更加符合人类的认知逻辑，提升了视觉-语言对齐的效果。

🏷️