小红花·文摘

当多模态开始卷落地：MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经 ·

我们在ICLR 2025上学到了什么

Jina AI ·

本研究提出了一种新的跨模态对齐方法——结构引导跨模态对齐（SGCMA），旨在提升大型语言模型在时间序列预测中的应用。该方法通过学习状态转移图结构和语义对齐，显著提高了预测性能和泛化能力。

Enhancing the Application of Large Language Models in Time Series Forecasting via Structure-Guided Cross-Modal Alignment

BriefGPT - AI 论文速递 ·

本研究提出了一种对比式一阶段变换器融合框架(COST)，有效解决视觉-语言追踪算法中的分布偏差问题，提升了跨模态对齐和特征表示的一致性。实验结果表明，COST在多个数据集上表现优异。

Application of Contrastive One-Stage Transformer in Visual-Language Small Object Tracking

BriefGPT - AI 论文速递 ·

本研究提出了一种新策略，通过多模态微调方法显著改善OOD检测性能，关键在于正则化图像与文本嵌入间的距离，增强跨模态对齐。实验结果表明，该方法在ImageNet-1k OOD基准数据集上优于现有技术，达到最先进的检测表现。

Enhanced Out-of-Distribution Detection through Cross-Modal Alignment of Multi-Modal Representations

BriefGPT - AI 论文速递 ·

本研究提出了一种双阶段跨模态对齐框架，用于情感模仿强度（EMI）估计。通过改进的CLIP架构和时间感知动态融合模块，显著提高了特征对齐精度和抗噪声能力，实验结果表明该方法在情感维度上优于最佳基线40%。

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

BriefGPT - AI 论文速递 ·

本研究提出CGP-Tuning，一种结构感知软提示调优方法，旨在提高代码漏洞检测效果。该方法通过类型感知嵌入捕捉代码图的语义信息，并设计跨模态对齐模块，使得在DiverseVul数据集上的准确率提高3.5个百分点，同时保持对长源代码的检测能力。

CGP Tuning: Structure-Aware Soft Prompt Tuning for Code Vulnerability Detection

BriefGPT - AI 论文速递 ·

本研究提出了一种高效的跨模态对齐框架，解决了边缘设备上自动语音识别与大型语言模型个性化训练不足的问题，提升了训练速度和对齐质量。

微调：在边缘设备上连接自动语音识别和大型语言模型

BriefGPT - AI 论文速递 ·

本研究提出了一种视频检索增强生成（Video-RAG）的方法，旨在解决大型视频语言模型在长视频理解中的局限性。通过视觉对齐的辅助文本，Video-RAG显著提升了跨模态对齐效果，减少了对高质量数据和GPU资源的依赖，并在多个基准测试中表现优异。

Video Retrieval-Augmented Generation: Visually-Aligned Long Video Comprehension

BriefGPT - AI 论文速递 ·

本研究分析了大型语言和视觉模型在基础感知任务中的不足，尽管在高级推理任务中表现良好。通过评估多个模型家族，揭示其内部处理机制、数学推理能力及跨模态对齐问题，并提出改进建议和未来评估基准的发展方向。

大型语言与视觉模型的有趣特性

BriefGPT - AI 论文速递 ·

本文探讨了多模态表示学习的进展，提出了多种算法和模型以实现跨模态的有效对齐和泛化。研究表明，利用大规模数据训练可以有效进行知识转移，提升文本、图像和音频等任务的表现。新方法如LanguageBind和ModaVerse显著提高了多模态理解和生成的效率，推动了相关领域的发展。

OneEncoder：一种轻量级的逐步对齐多模态框架

BriefGPT - AI 论文速递 ·

本文介绍了一种基于常识感知的跨模态对齐框架，旨在提高视频时间定位的精确度和效率。该方法通过结构化语义信息提取和跨模态交互模块，在多个数据集上超越了现有技术。此外，研究提出了CONE、Mug-STAN和TOPA等新方法，在视频-语言对齐和分析中取得了显著成果，推动了多模态大语言模型的发展。

PiTe：大规模视频语言模型的像素时间对齐

BriefGPT - AI 论文速递 ·

本文研究了联合语音-文本嵌入空间的属性，提出了一种无监督的跨模态对齐框架，通过对抗训练实现语音与文本的嵌入对齐，从而提升低资源语言的语音识别和翻译性能。此外，研究探讨了音频元数据的融合检索系统，并提出了有效的音频-文本嵌入验证器，在多个任务中表现优异。

听音不识谱：两塔多模式仪器识别系统评估

BriefGPT - AI 论文速递 ·

本文提出了一种跨模态对齐任务，旨在提高音频和视觉模态的交互，增强声源定位和跨模态检索的性能。研究开发了音频-视觉空间整合网络和无监督算法，利用空间线索和递归注意机制，提升声源定位的准确性和可靠性。实验结果表明，该方法在多个数据集上优于现有技术。

视听对齐：通过音视频对齐来实现先进的声源定位

BriefGPT - AI 论文速递 ·

本文提出了一种大型语言模型引导的时刻检索方法，旨在改善视频上下文表示和跨模态对齐，从而提升目标时刻定位的准确性。通过利用多模态大型语言模型的视觉文本理解能力，生成视频文本描述并进行时间对齐，显著提高了检索效果。研究表明，该方法在视频理解任务中表现优异，为多模态分类提供了新方向。

多模态大型语言模型对视频片段检索的惊人有效性

BriefGPT - AI 论文速递 ·

本文提出了一种基于拓扑的最优传输框架（TOT），用于解决跨模态对齐问题，揭示互联网恶意内容的隐患。TOT在公开数据集上表现优越，改进了生成分布与数据分布的对齐。此外，研究介绍了HateCOT数据集，显著提升了有害内容检测模型的性能，尤其在低资源情况下。

COT: A Method for Generating Countermeasures Against Hate Speech through Comparative Optimal Transport

BriefGPT - AI 论文速递 ·

本文提出了一种语义增强的视觉-语言预训练模型，通过局部语义增强和遮蔽策略实现跨模态语义对齐，显著提升了多项视觉-语言任务的性能，尤其在低资源环境下表现优异。

SyncMask：时尚中心化视觉 - 语言预训练的同步注意屏蔽

BriefGPT - AI 论文速递 ·

本文研究了跨模态对齐的图像检索，提出了IRRA框架，并在多个数据集上取得了优异成果。结合视觉和语言模型，探索了车辆搜索的潜力，提出VAL-PAT框架以增强行人分析任务，利用CLIP模型进行行人属性识别，展示了在数据稀缺情况下的优越性能。

CVPR 2023 第一届基础模型挑战赛 - Track2 的解决方案

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过合成图像文本对解决图像标注中的跨模态对齐问题，取得了最先进的性能。

通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成

BriefGPT - AI 论文速递 ·

通过引入低成本提示调整范式来学习特定领域视觉提示，提出了一种新颖且模型无关的领域感知提示学习（DAP）框架，以在VLN任务中为预训练模型提供特定对象级和场景级跨模态对齐，并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。实验结果显示，DAP相比现有的最先进方法具有明显的优势。

DAP：面向领域感知的视觉与语言导航提示学习

BriefGPT - AI 论文速递 ·