OpenBMB推出的MiniCPM-o-4.5模型仅用9B参数实现全模态能力,强调跨模态对齐与推理效率,适合主流GPU部署,具备高性能与轻量化优势。
ICLR 2025将在新加坡举行,这是该会议首次在亚洲举办,吸引了大量中国参与者。会议展示了多项研究成果,包括小型高效模型的优势。研究如AlignCLIP改善了跨模态对齐,jina-clip-v2支持多语言任务,ReaderLM-v2高效提取网页内容。此外,新方法FlexPrefill和TAID提升了长序列推理和知识蒸馏的效率,推动了AI技术的发展。
本研究提出了一种新的跨模态对齐方法——结构引导跨模态对齐(SGCMA),旨在提升大型语言模型在时间序列预测中的应用。该方法通过学习状态转移图结构和语义对齐,显著提高了预测性能和泛化能力。
本研究提出了一种对比式一阶段变换器融合框架(COST),有效解决视觉-语言追踪算法中的分布偏差问题,提升了跨模态对齐和特征表示的一致性。实验结果表明,COST在多个数据集上表现优异。
本研究提出了一种新策略,通过多模态微调方法显著改善OOD检测性能,关键在于正则化图像与文本嵌入间的距离,增强跨模态对齐。实验结果表明,该方法在ImageNet-1k OOD基准数据集上优于现有技术,达到最先进的检测表现。
本研究提出了一种双阶段跨模态对齐框架,用于情感模仿强度(EMI)估计。通过改进的CLIP架构和时间感知动态融合模块,显著提高了特征对齐精度和抗噪声能力,实验结果表明该方法在情感维度上优于最佳基线40%。
本研究提出CGP-Tuning,一种结构感知软提示调优方法,旨在提高代码漏洞检测效果。该方法通过类型感知嵌入捕捉代码图的语义信息,并设计跨模态对齐模块,使得在DiverseVul数据集上的准确率提高3.5个百分点,同时保持对长源代码的检测能力。
本研究提出了一种高效的跨模态对齐框架,解决了边缘设备上自动语音识别与大型语言模型个性化训练不足的问题,提升了训练速度和对齐质量。
本研究提出了一种视频检索增强生成(Video-RAG)的方法,旨在解决大型视频语言模型在长视频理解中的局限性。通过视觉对齐的辅助文本,Video-RAG显著提升了跨模态对齐效果,减少了对高质量数据和GPU资源的依赖,并在多个基准测试中表现优异。
本研究分析了大型语言和视觉模型在基础感知任务中的不足,尽管在高级推理任务中表现良好。通过评估多个模型家族,揭示其内部处理机制、数学推理能力及跨模态对齐问题,并提出改进建议和未来评估基准的发展方向。
本文探讨了多模态表示学习的进展,提出了多种算法和模型以实现跨模态的有效对齐和泛化。研究表明,利用大规模数据训练可以有效进行知识转移,提升文本、图像和音频等任务的表现。新方法如LanguageBind和ModaVerse显著提高了多模态理解和生成的效率,推动了相关领域的发展。
本文介绍了一种基于常识感知的跨模态对齐框架,旨在提高视频时间定位的精确度和效率。该方法通过结构化语义信息提取和跨模态交互模块,在多个数据集上超越了现有技术。此外,研究提出了CONE、Mug-STAN和TOPA等新方法,在视频-语言对齐和分析中取得了显著成果,推动了多模态大语言模型的发展。
本文研究了联合语音-文本嵌入空间的属性,提出了一种无监督的跨模态对齐框架,通过对抗训练实现语音与文本的嵌入对齐,从而提升低资源语言的语音识别和翻译性能。此外,研究探讨了音频元数据的融合检索系统,并提出了有效的音频-文本嵌入验证器,在多个任务中表现优异。
本文提出了一种跨模态对齐任务,旨在提高音频和视觉模态的交互,增强声源定位和跨模态检索的性能。研究开发了音频-视觉空间整合网络和无监督算法,利用空间线索和递归注意机制,提升声源定位的准确性和可靠性。实验结果表明,该方法在多个数据集上优于现有技术。
本文提出了一种大型语言模型引导的时刻检索方法,旨在改善视频上下文表示和跨模态对齐,从而提升目标时刻定位的准确性。通过利用多模态大型语言模型的视觉文本理解能力,生成视频文本描述并进行时间对齐,显著提高了检索效果。研究表明,该方法在视频理解任务中表现优异,为多模态分类提供了新方向。
本文提出了一种基于拓扑的最优传输框架(TOT),用于解决跨模态对齐问题,揭示互联网恶意内容的隐患。TOT在公开数据集上表现优越,改进了生成分布与数据分布的对齐。此外,研究介绍了HateCOT数据集,显著提升了有害内容检测模型的性能,尤其在低资源情况下。
本文提出了一种语义增强的视觉-语言预训练模型,通过局部语义增强和遮蔽策略实现跨模态语义对齐,显著提升了多项视觉-语言任务的性能,尤其在低资源环境下表现优异。
本文研究了跨模态对齐的图像检索,提出了IRRA框架,并在多个数据集上取得了优异成果。结合视觉和语言模型,探索了车辆搜索的潜力,提出VAL-PAT框架以增强行人分析任务,利用CLIP模型进行行人属性识别,展示了在数据稀缺情况下的优越性能。
本研究提出了一种新方法,通过合成图像文本对解决图像标注中的跨模态对齐问题,取得了最先进的性能。
通过引入低成本提示调整范式来学习特定领域视觉提示,提出了一种新颖且模型无关的领域感知提示学习(DAP)框架,以在VLN任务中为预训练模型提供特定对象级和场景级跨模态对齐,并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。实验结果显示,DAP相比现有的最先进方法具有明显的优势。
完成下面两步后,将自动完成登录并继续当前操作。