小红花·文摘

中国联通研究团队在AAAI 2026上发布了HiMo-CLIP模型，解决了长文本图像检索中的语义层级和单调性问题。该模型通过动态特征提取和对齐机制，显著提高了长短文本的检索精度，性能优于现有模型。

让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点｜AAAI 2026 Oral

量子位 ·

VLM2Vec-V2：用于跨图像、视频和视觉文档进行多模态嵌入学习的统一计算机视觉框架

实时互动网 ·

如何掌握向量数据库

The New Stack ·

FocalLens：指令调优实现零-shot条件图像表示

Apple Machine Learning Research ·

构建视频内容搜索与分析的RAG系统

DEV Community ·

基于强化学习的多模态标签排名：一种新方法

DEV Community ·

本文提出了一种新方法Fwd2Bot，用于大型视觉语言模型（LVLM）中视觉令牌的高效压缩。该方法通过双向前传训练，实现了几乎无损的压缩效果，显著提升了生成任务的压缩率，并在图像检索与组合性任务上达到了新的最先进性能。

Fwd2Bot: LVLM Visual Token Compression with Bidirectional Bottleneck

BriefGPT - AI 论文速递 ·

本研究提出了ImageScope框架，通过集体推理和语言组合特性，统一语言指导图像检索（LGIR）任务，显著提升了检索的准确性和可靠性。实验结果显示，ImageScope在六个数据集上优于现有基线。

ImageScope: Unifying Language-Guided Image Retrieval through Collective Reasoning with Large Multimodal Models

BriefGPT - AI 论文速递 ·

本研究提出了一种结合手绘素描和文本描述的复合查询接口，以解决非母语者在命名特定物体时的困难。通过使用CSTBIR数据集和STNET模型，显著提升了图像检索效果，帮助用户更有效地查找难以识别的物体及其复杂交互。

Composite Sketch + Text Queries for Retrieving Objects with Elusive Names and Complex Interactions

BriefGPT - AI 论文速递 ·

本研究提出了一种模态反转方法，解决了CLIP等多模态模型中仅使用文本或图像编码器的低效问题，显著提升了图像检索性能，并缓解了模态内不对齐现象。

Bridging the Gap: Revealing Intra-Modal Misalignment in CLIP through Modal Inversion

BriefGPT - AI 论文速递 ·

本研究提出了一种基于形状的单一物体分类集成方法，旨在解决图像标注和检索中的分类问题。通过分层分类框架，缩小语义差距，实现多类别图像分类。研究表明，Bagging分类器在分类单一物体图像时表现最佳，分类准确率从20%提升至99%。

Ensemble Method Classifiers for Shape-Based Single Object Classification

BriefGPT - AI 论文速递 ·

生态学家发现计算机视觉模型在检索野生动物图像时的盲点

MIT News - Artificial intelligence ·

本研究提出了一种双重变换方法，克服了传统图像检索在高维空间中的性能限制。通过端到端训练，结果表明在异构空间中的匹配显著提高了图像检索的准确性，尤其在复杂数据集上效果显著。

相异空间中的图像检索方法

BriefGPT - AI 论文速递 ·

本研究提出了一种新学习范式，解决了图像理解模型在视觉层次学习中的不足。该模型在无明确层次标签的情况下，能够在双曲空间中编码多级视觉层次，显著提升图像检索的层次能力。

通过双曲嵌入学习视觉层次

BriefGPT - AI 论文速递 ·

本研究提出了一种基于显著性图的不变Krawtchouk矩的图像检索方法（SM-IKM），通过显著区域检测与多阶特征结合，显著提高了检索的准确性和效率。实验结果显示，该方法优于现有技术。

Image Retrieval Method Based on Saliency Maps: Application of Invariant Krawtchouk Moments

BriefGPT - AI 论文速递 ·

通过Hacktoberfest开启开源之旅！

DEV Community ·

本文提出了一种新的开放世界持续视觉表征学习方法DPaRL，通过动态生成提示增强模型对未见类别的泛化能力。实验结果表明，DPaRL在开放世界图像检索基准上表现优越，Recall@1提升4.7%，有效应对动态开放世界环境中的持续学习挑战。

DPaRL：耶鲁+AWS出品，开放世界持续学习场景的新解法 | ECCV'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文介绍了视觉对话任务，提出了一种基于视觉的通用测试方法和新的聊天数据收集协议。研究利用多种编码器和解码器，超越了复杂基准线，展示了“视觉聊天机器人”的性能。同时，介绍了交互式图像检索方法和新数据集PhotoChat，促进了图像文本建模研究，解决了有趣的现实问题。

ChatSearch：通用对话图像检索的数据集和生成检索模型

BriefGPT - AI 论文速递 ·

本文介绍了一种基于深度卷积网络的特征提取方法，能够有效迁移到其他任务，提升视觉挑战的表现。研究提出了多种数据集提炼技术，如DataDAM和DREAM+，显著提高了图像到文本检索的准确率，并降低了训练成本。同时，UDD方法增强了合成数据集的信息性，解决了深度学习中的数据存储和计算成本问题，取得了优异的实验结果。

在复杂场景中强调判别特征的数据集蒸馏

BriefGPT - AI 论文速递 ·

本文探讨了多模态transformer模型在语言和视觉任务中的应用，重点研究了零样本图像检索的影响因素。提出了i-Code V2和Emu2等模型，展示了多模态预训练的强大性能。instruct-imagen模型通过多模态指导实现图像生成，Anole展示了高效的图像-文本生成能力。最后，Show-o模型结合自回归和离散扩散建模，展现了在多模态理解与生成任务中的潜力。

Janus：解耦视觉编码以实现统一的多模态理解与生成

BriefGPT - AI 论文速递 ·