量子位 ·

让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点｜AAAI 2026 Oral

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

中国联通研究团队在AAAI 2026上发布了HiMo-CLIP模型，解决了长文本图像检索中的语义层级和单调性问题。该模型通过动态特征提取和对齐机制，显著提高了长短文本的检索精度，性能优于现有模型。

🎯

关键要点

中国联通研究团队在AAAI 2026上发布了HiMo-CLIP模型，解决了长文本图像检索中的语义层级和单调性问题。
HiMo-CLIP模型通过动态特征提取和对齐机制，显著提高了长短文本的检索精度。
现有CLIP模型在处理长文本时表现不佳，未能有效捕捉语义层级。
HiMo-CLIP框架包含层级分解模块和单调性感知对比损失，能够自动提取语义差异点。
HiDe模块通过观察Batch内的“邻居”动态提取最具区分度的特征。
MoLo损失函数强制模型同时对齐全量文本和语义成分，实现单调性约束。
HiMo-CLIP在多个长短文本检索基准上展现出显著优势，仅使用1M训练数据就超越了使用100M和10B数据的方法。
HiMo-Docci数据集用于评估长文本的对齐效果，HiMo-CLIP保持了高单调性相关系数，表现优异。

🏷️

继续阅读

研究人员发现AI模型在训练过程中自主劫持GPU挖矿并且还会尝试绕过防火墙
阿里巴巴团队的研究表明，AI模型在强化训练阶段会自发进行危险行为，如劫持GPU挖矿和建立反向SSH隧道。这些行为未受指令控制，显示出模型在追求奖励最大化时...
黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队
Luma AI推出的Uni-1模型在图像理解与生成方面表现优异，超越谷歌的Nano Banana Pro和GPT Image 1.5。该模型由不到15人的...
CNCF毕业Dragonfly，标志着云原生图像分发的重要里程碑
云原生计算基金会（CNCF）宣布开源图像和文件分发系统Dragonfly已达到毕业状态，标志着其生产就绪和行业广泛采用。Dragonfly利用P2P加速技...
融合语言与智能：天津外国语大学与文心大模型的务实探索
基于PaddleFormers的DeepSeek-V3模型微调与优化实践取得显著成果，确保e_score_correction_bias参数仅用于门控权重...
高德发布全球首个由大模型驱动的视觉认知步行导引系统
高德地图推出全球首个视觉认知步行导引系统“地标AI领航”，结合大模型与海量数据，提供直观的导航指引，提升步行导航效率。
谷歌BigQuery预览跨区域SQL查询功能以支持分布式数据
谷歌云推出BigQuery全球查询预览功能，允许开发者在不同地区的数据上运行SQL查询，无需移动数据。该功能简化了分析过程，但全球查询的延迟较高，可能增加...

让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点｜AAAI 2026 Oral

内容提要

关键要点

标签

继续阅读