小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

华为诺亚方舟实验室提出的视觉感知投机推理(ViSpec)算法,将多模态大模型的推理速度提升至最高3.22倍,同时保持生成质量。这一创新有效解决了现有方法在处理视觉信息时的效率问题,为多模态模型的应用提供了新方案。

多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

量子位
量子位 · 2025-09-26T06:01:57Z
利用音视频数据缩小自监督语音模型中的多语言差距

本文探讨了通过引入有限视觉信息来减少自监督语音模型在多语言环境中的性能差距。研究表明,视觉信息对单语和双语模型均有益,尤其是双语模型的表现显著提升,零样本音素区分的多语言性能差距从31.5%降至8.04%。

利用音视频数据缩小自监督语音模型中的多语言差距

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-25T00:00:00Z
SceneScout:面向盲人用户的AI代理驱动街景图像访问

盲人或低视力者在陌生环境中独立旅行时常感到不安。现有工具主要集中于现场导航,缺乏详细的视觉信息。SceneScout是一种基于多模态大型语言模型的AI代理,提供街景图像的可访问交互,支持路线预览和虚拟探索。用户研究表明,SceneScout帮助盲人用户获取视觉信息,技术评估显示描述准确率为72%。

SceneScout:面向盲人用户的AI代理驱动街景图像访问

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-07T00:00:00Z

本研究提出了一种多模态模型MM-When2Speak,旨在解决大型语言模型在实时对话中的反应时机问题。该模型结合视觉、听觉和文本信息,能够准确预测何时及如何回应。实验结果表明,其在响应时机的准确性上显著优于现有模型,强调了多模态输入在对话AI中的重要性。

Beyond Words: Multimodal Large Language Models Know When to Speak

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种图视觉网络(GVN)框架,旨在解决传统图神经网络在链接预测中未充分利用视觉信息的问题。实验结果表明,该框架在多个数据集上表现优异,为链接预测提供了新的研究方向。

Expanding the Horizon of MPNN: The Application of Vision-Enhanced MPNN in Link Prediction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了MuSeD数据集,用于检测社交媒体视频中的性别歧视,包含约11小时的西班牙语视频。研究表明,视觉信息对识别性别歧视内容至关重要,但模型在隐性歧视的识别上表现不佳,反映了任务的复杂性。

MuSeD: A Multimodal Spanish Dataset for Sexism Detection in Social Media Videos

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本研究提出了TMCIR框架,解决组合图像检索中视觉与文本信息融合的偏差问题。通过意图感知的跨模态对齐和自适应标记融合,提升了特征检索的平衡性与准确性,实验结果表明其在捕捉用户意图方面优于现有方法。

TMCIR: Advantages of Token Merging in Composed Image Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z
jina-reranker-m0:多语言多模态文档排序器

jina-reranker-m0是一个新发布的多语言多模态文档排序模型,支持29种语言,能够处理文本和视觉信息。该模型在多种检索基准上表现优异,采用解码器架构,优化了文本与图像的结合,提升了多模态检索能力。未来将探索其在文本任务中的应用。

jina-reranker-m0:多语言多模态文档排序器

Jina AI
Jina AI · 2025-04-08T11:10:38Z

LaViC框架旨在解决对话推荐系统中缺乏细致视觉信息的问题。通过整合图像表示,LaViC实现了文本与视觉特征的统一捕捉,显著提升了推荐系统的性能,强调了视觉数据在捕捉产品属性中的重要性。

LaViC: Adapting Large Vision-Language Models for Visually-Aware Conversational Recommendation Systems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-30T00:00:00Z
解锁视觉智能:TULIP模型在人工智能中的力量

TULIP模型通过生成数据增强和对比学习技术,提升了机器对视觉信息的理解能力,特别在零样本和少样本分类任务中表现优异,适用于医疗影像和自动驾驶等领域,推动了人工智能的发展。

解锁视觉智能:TULIP模型在人工智能中的力量

DEV Community
DEV Community · 2025-03-21T00:15:05Z

本研究提出了一种名为分层模态感知剪枝(HiMAP)的方法,旨在解决多模态大语言模型中的视觉信息处理问题。该方法能够动态剪枝图像标记,降低约65%的计算成本,同时不影响性能,为视觉信息处理提供了新的视角。

揭开多模态大语言模型中视觉信息流的面纱:加速推理的途径

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究探讨了视觉信息在多模态数学推理中的重要性,并提出了HC-M3D数据集以评估模型对视觉信息的依赖。结果表明,现有模型在识别视觉差异方面能力有限,强调了提升数学推理视觉依赖性的必要性。

The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

该研究提出了一种新方法,结合稳定扩散的想象网络和增强学习,有效利用视觉信息,显著提升多模态翻译效果。

Making Imagination Clearer! Visual Imagination in Multimodal Machine Translation Based on Stable Diffusion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究提出了一种新方法,通过结合音频特征与视觉信息,生成自然声音对应的视觉场景图像。该方法在VEGAS和VGGSound数据集上显著提高了生成效果,展示了对生成过程的控制能力,证明了其适用性和通用性。

Sound to Vision: Generating Diverse Visual Images through Cross-Modal Latent Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究探讨了多模态大型语言模型中语言与视觉信息的互动机制,分析了视觉问答中的信息流。实验表明,信息整合分为两个阶段,为图像和语言处理提供了新视角,推动了多模态信息研究。

多模态大型语言模型中的跨模态信息流

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本研究提出了一种新的视频标记器LARP,克服了传统自回归生成模型的局限性。LARP通过整体查询学习视觉信息,显著提升了生成模型的性能,在UCF101基准测试中表现优异,展现了其潜在应用价值。

视频的学习自回归生成先验的标记化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本文研究了不同生成图像模型的潜在空间相似性,通过线性映射连接编码器和解码器来测量模型的度量。发现性能良好的模型之间的潜在空间线性映射保留了大部分视觉信息,性别是最相似的属性。实验结果表明,潜在空间表示在训练早期就会收敛。

所有道路通往罗马?探索生成图像模型的潜在空间之间的表征相似性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

本文介绍了一种音频视觉语音增强系统,利用基于分数的生成模型和视觉信息。实验评估表明该系统在语音质量和减少生成物品方面有改进效果,并降低了发音困惑。

视觉回声:简单统一变压器用于音视频生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-23T00:00:00Z

本文介绍了一种音频视觉语音增强系统,利用基于分数的生成模型和视觉信息。实验评估表明该系统在语音质量和减少生成物品方面有改进效果,并减少了发音困惑。

基于生成模型的视觉信号编码与处理调查:技术、标准与优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-23T00:00:00Z

ScenaFuse是一种创新型适配器,用于自然语言推理任务,整合了预训练语言知识和视觉信息,提高了语言和视觉之间的理解和推理能力。

基于场景引导适配器的自然语言推理中解决词语模糊问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码