OpenBMB推出的MiniCPM-o-4.5模型仅用9B参数实现全模态能力,强调跨模态对齐与推理效率,适合主流GPU部署,具备高性能与轻量化优势。
ICLR 2025将在新加坡举行,这是该会议首次在亚洲举办,吸引了大量中国参与者。会议展示了多项研究成果,包括小型高效模型的优势。研究如AlignCLIP改善了跨模态对齐,jina-clip-v2支持多语言任务,ReaderLM-v2高效提取网页内容。此外,新方法FlexPrefill和TAID提升了长序列推理和知识蒸馏的效率,推动了AI技术的发展。
本研究提出了一种新的跨模态对齐方法——结构引导跨模态对齐(SGCMA),旨在提升大型语言模型在时间序列预测中的应用。该方法通过学习状态转移图结构和语义对齐,显著提高了预测性能和泛化能力。
本研究提出了一种对比式一阶段变换器融合框架(COST),有效解决视觉-语言追踪算法中的分布偏差问题,提升了跨模态对齐和特征表示的一致性。实验结果表明,COST在多个数据集上表现优异。
本研究提出了一种新策略,通过多模态微调方法显著改善OOD检测性能,关键在于正则化图像与文本嵌入间的距离,增强跨模态对齐。实验结果表明,该方法在ImageNet-1k OOD基准数据集上优于现有技术,达到最先进的检测表现。
本研究提出了一种双阶段跨模态对齐框架,用于情感模仿强度(EMI)估计。通过改进的CLIP架构和时间感知动态融合模块,显著提高了特征对齐精度和抗噪声能力,实验结果表明该方法在情感维度上优于最佳基线40%。
本研究提出CGP-Tuning方法,解决了大语言模型中传统全参数调优的低效问题。该方法通过类型感知嵌入和跨模态对齐模块,提升了代码漏洞检测的准确率,比现有最佳方法提高了3.5个百分点。
本研究提出了一种高效的跨模态对齐框架,解决了边缘设备上自动语音识别与大型语言模型个性化训练不足的问题,提升了训练速度和对齐质量。
本研究提出了一种新方法,通过视觉帧级门控机制和跨模态对齐损失,提升视频帧与文本查询的匹配效果,提高了VTG基准测试中的表现,强调了整体文本理解在视频定位中的重要性。
本研究分析了大型语言和视觉模型在基础感知任务中的不足,尽管在高级推理任务中表现良好。通过评估多个模型家族,揭示其内部处理机制、数学推理能力及跨模态对齐问题,并提出改进建议和未来评估基准的发展方向。
该研究提出了一种多语义融合模型,用于提高广义零样本基于骨骼的动作识别性能。该模型通过采集两种类级文本描述作为辅助语义信息,增强通用骨骼特征的学习能力。利用预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征,并通过生成模块学习骨骼和语义特征之间的跨模态对齐。最后,通过分类模块识别输入样本的动作类别,并采用分类门来预测样本是否来自已知动作类别。该模型在广义零样本基于骨骼的动作识别中表现出卓越性能。
本文介绍了通过设计AlignCLIP来减少模态间隙的方法,并通过实验证明了其在跨模态对齐方面的显著改进。在多个下游评估中,AlignCLIP在零样本图像分类、零样本多模态检索和零样本语义文本相似性等方面保持了良好的性能。
本研究提出了一种新方法,通过合成图像文本对解决图像标注中的跨模态对齐问题,取得了最先进的性能。
通过引入低成本提示调整范式来学习特定领域视觉提示,提出了一种新颖且模型无关的领域感知提示学习(DAP)框架,以在VLN任务中为预训练模型提供特定对象级和场景级跨模态对齐,并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。实验结果显示,DAP相比现有的最先进方法具有明显的优势。
该文介绍了一个跨模态对齐任务,以促进音频和视觉模态之间的交互学习,实现了声源定位和跨模态检索的高性能和语义理解。
完成下面两步后,将自动完成登录并继续当前操作。