小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

OpenBMB推出的MiniCPM-o-4.5模型仅用9B参数实现全模态能力,强调跨模态对齐与推理效率,适合主流GPU部署,具备高性能与轻量化优势。

当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经
HyperAI超神经 · 2026-02-28T06:48:25Z
我们在ICLR 2025上学到了什么

ICLR 2025将在新加坡举行,这是该会议首次在亚洲举办,吸引了大量中国参与者。会议展示了多项研究成果,包括小型高效模型的优势。研究如AlignCLIP改善了跨模态对齐,jina-clip-v2支持多语言任务,ReaderLM-v2高效提取网页内容。此外,新方法FlexPrefill和TAID提升了长序列推理和知识蒸馏的效率,推动了AI技术的发展。

我们在ICLR 2025上学到了什么

Jina AI
Jina AI · 2025-05-25T22:06:37Z

本研究提出了一种新的跨模态对齐方法——结构引导跨模态对齐(SGCMA),旨在提升大型语言模型在时间序列预测中的应用。该方法通过学习状态转移图结构和语义对齐,显著提高了预测性能和泛化能力。

Enhancing the Application of Large Language Models in Time Series Forecasting via Structure-Guided Cross-Modal Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一种对比式一阶段变换器融合框架(COST),有效解决视觉-语言追踪算法中的分布偏差问题,提升了跨模态对齐和特征表示的一致性。实验结果表明,COST在多个数据集上表现优异。

Application of Contrastive One-Stage Transformer in Visual-Language Small Object Tracking

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出了一种新策略,通过多模态微调方法显著改善OOD检测性能,关键在于正则化图像与文本嵌入间的距离,增强跨模态对齐。实验结果表明,该方法在ImageNet-1k OOD基准数据集上优于现有技术,达到最先进的检测表现。

Enhanced Out-of-Distribution Detection through Cross-Modal Alignment of Multi-Modal Representations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z

本研究提出了一种双阶段跨模态对齐框架,用于情感模仿强度(EMI)估计。通过改进的CLIP架构和时间感知动态融合模块,显著提高了特征对齐精度和抗噪声能力,实验结果表明该方法在情感维度上优于最佳基线40%。

动态特征融合的双阶段跨模态网络用于情感模仿强度估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

本研究提出CGP-Tuning方法,解决了大语言模型中传统全参数调优的低效问题。该方法通过类型感知嵌入和跨模态对齐模块,提升了代码漏洞检测的准确率,比现有最佳方法提高了3.5个百分点。

CGP调优:结构感知软提示调优用于代码漏洞检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z

本研究提出了一种高效的跨模态对齐框架,解决了边缘设备上自动语音识别与大型语言模型个性化训练不足的问题,提升了训练速度和对齐质量。

微调:在边缘设备上连接自动语音识别和大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本研究提出了一种新方法,通过视觉帧级门控机制和跨模态对齐损失,提升视频帧与文本查询的匹配效果,提高了VTG基准测试中的表现,强调了整体文本理解在视频定位中的重要性。

让我说完我的句子:通过整体文本理解进行视频时间定位

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本研究分析了大型语言和视觉模型在基础感知任务中的不足,尽管在高级推理任务中表现良好。通过评估多个模型家族,揭示其内部处理机制、数学推理能力及跨模态对齐问题,并提出改进建议和未来评估基准的发展方向。

大型语言和视觉模型的有趣特性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

该研究提出了一种多语义融合模型,用于提高广义零样本基于骨骼的动作识别性能。该模型通过采集两种类级文本描述作为辅助语义信息,增强通用骨骼特征的学习能力。利用预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征,并通过生成模块学习骨骼和语义特征之间的跨模态对齐。最后,通过分类模块识别输入样本的动作类别,并采用分类门来预测样本是否来自已知动作类别。该模型在广义零样本基于骨骼的动作识别中表现出卓越性能。

SA-DVAE:通过解耦可变自动编码器提升零样本基于骨骼的动作识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

本文介绍了通过设计AlignCLIP来减少模态间隙的方法,并通过实验证明了其在跨模态对齐方面的显著改进。在多个下游评估中,AlignCLIP在零样本图像分类、零样本多模态检索和零样本语义文本相似性等方面保持了良好的性能。

缓解差距:研究提升 CLIP 中跨模态对齐的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-25T00:00:00Z

本研究提出了一种新方法,通过合成图像文本对解决图像标注中的跨模态对齐问题,取得了最先进的性能。

通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-04T00:00:00Z

通过引入低成本提示调整范式来学习特定领域视觉提示,提出了一种新颖且模型无关的领域感知提示学习(DAP)框架,以在VLN任务中为预训练模型提供特定对象级和场景级跨模态对齐,并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。实验结果显示,DAP相比现有的最先进方法具有明显的优势。

DAP:面向领域感知的视觉与语言导航提示学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-29T00:00:00Z

该文介绍了一个跨模态对齐任务,以促进音频和视觉模态之间的交互学习,实现了声源定位和跨模态检索的高性能和语义理解。

声源定位是关于跨模态对齐的全部内容

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码