小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

华为诺亚方舟实验室提出的视觉感知投机推理(ViSpec)算法,将多模态大模型的推理速度提升至最高3.22倍,同时保持生成质量。这一创新有效解决了现有方法在处理视觉信息时的效率问题,为多模态模型的应用提供了新方案。

多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

量子位
量子位 · 2025-09-26T06:01:57Z
利用音视频数据缩小自监督语音模型中的多语言差距

本文探讨了通过引入有限视觉信息来减少自监督语音模型在多语言环境中的性能差距。研究表明,视觉信息对单语和双语模型均有益,尤其是双语模型的表现显著提升,零样本音素区分的多语言性能差距从31.5%降至8.04%。

利用音视频数据缩小自监督语音模型中的多语言差距

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-25T00:00:00Z
SceneScout:面向盲人用户的AI代理驱动街景图像访问

盲人或低视力者在陌生环境中独立旅行时常感到不安。现有工具主要集中于现场导航,缺乏详细的视觉信息。SceneScout是一种基于多模态大型语言模型的AI代理,提供街景图像的可访问交互,支持路线预览和虚拟探索。用户研究表明,SceneScout帮助盲人用户获取视觉信息,技术评估显示描述准确率为72%。

SceneScout:面向盲人用户的AI代理驱动街景图像访问

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-07T00:00:00Z

本研究提出了一种多模态模型MM-When2Speak,旨在解决大型语言模型在实时对话中的反应时机问题。该模型结合视觉、听觉和文本信息,能够准确预测何时及如何回应。实验结果表明,其在响应时机的准确性上显著优于现有模型,强调了多模态输入在对话AI中的重要性。

Beyond Words: Multimodal Large Language Models Know When to Speak

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种图视觉网络(GVN)框架,旨在解决传统图神经网络在链接预测中未充分利用视觉信息的问题。实验结果表明,该框架在多个数据集上表现优异,为链接预测提供了新的研究方向。

Expanding the Horizon of MPNN: The Application of Vision-Enhanced MPNN in Link Prediction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了MuSeD数据集,用于检测社交媒体视频中的性别歧视,包含约11小时的西班牙语视频。研究表明,视觉信息对识别性别歧视内容至关重要,但模型在隐性歧视的识别上表现不佳,反映了任务的复杂性。

MuSeD: A Multimodal Spanish Dataset for Sexism Detection in Social Media Videos

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本研究提出了TMCIR框架,解决组合图像检索中视觉与文本信息融合的偏差问题。通过意图感知的跨模态对齐和自适应标记融合,提升了特征检索的平衡性与准确性,实验结果表明其在捕捉用户意图方面优于现有方法。

TMCIR: Advantages of Token Merging in Composed Image Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z
jina-reranker-m0:多语言多模态文档排序器

jina-reranker-m0是一个新发布的多语言多模态文档排序模型,支持29种语言,能够处理文本和视觉信息。该模型在多种检索基准上表现优异,采用解码器架构,优化了文本与图像的结合,提升了多模态检索能力。未来将探索其在文本任务中的应用。

jina-reranker-m0:多语言多模态文档排序器

Jina AI
Jina AI · 2025-04-08T11:10:38Z

LaViC框架旨在解决对话推荐系统中缺乏细致视觉信息的问题。通过整合图像表示,LaViC实现了文本与视觉特征的统一捕捉,显著提升了推荐系统的性能,强调了视觉数据在捕捉产品属性中的重要性。

LaViC: Adapting Large Vision-Language Models for Visually-Aware Conversational Recommendation Systems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-30T00:00:00Z
解锁视觉智能:TULIP模型在人工智能中的力量

TULIP模型通过生成数据增强和对比学习技术,提升了机器对视觉信息的理解能力,特别在零样本和少样本分类任务中表现优异,适用于医疗影像和自动驾驶等领域,推动了人工智能的发展。

解锁视觉智能:TULIP模型在人工智能中的力量

DEV Community
DEV Community · 2025-03-21T00:15:05Z

本研究提出了一种名为分层模态感知剪枝(HiMAP)的方法,旨在解决多模态大语言模型中的视觉信息处理问题。该方法能够动态剪枝图像标记,降低约65%的计算成本,同时不影响性能,为视觉信息处理提供了新的视角。

揭开多模态大语言模型中视觉信息流的面纱:加速推理的途径

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究探讨了视觉信息在多模态数学推理中的重要性,并提出了HC-M3D数据集以评估模型对视觉信息的依赖。结果表明,现有模型在识别视觉差异方面能力有限,强调了提升数学推理视觉依赖性的必要性。

The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

该研究提出了一种新方法,结合稳定扩散的想象网络和增强学习,有效利用视觉信息,显著提升多模态翻译效果。

Making Imagination Clearer! Visual Imagination in Multimodal Machine Translation Based on Stable Diffusion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究提出了一种新方法,通过结合音频特征与视觉信息,生成自然声音对应的视觉场景图像。该方法在VEGAS和VGGSound数据集上显著提高了生成效果,展示了对生成过程的控制能力,证明了其适用性和通用性。

Sound to Vision: Generating Diverse Visual Images through Cross-Modal Latent Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究探讨了多模态大型语言模型中语言与视觉信息的互动机制,分析了视觉问答中的信息流。实验表明,信息整合分为两个阶段,为图像和语言处理提供了新视角,推动了多模态信息研究。

多模态大型语言模型中的跨模态信息流

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本文探讨了多模态大型语言模型(VLMs)在视觉与文本信息对齐中的挑战,提出了一种创新的图像标记器,通过字节对编码将结构先验信息融入图像符号,从而显著提升模型的多模态理解能力和可扩展性。同时,研究揭示了视觉标记与文本标记的层次对应关系,推动了多模态系统的可解释性与可控性的发展。

分析视觉符号的语言

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

本文提出了一种基于图卷积的模型,结合文本和视觉信息进行实体抽取。实验证明该模型在发票和简历数据集上的性能优于BiLSTM-CRF模型,能够通过少量标记数据和转移学习实现高效的信息提取,尤其在处理复杂文档时表现出色,显著提高了提取效率和准确性。

DAViD:基于合成见解的领域自适应视觉丰富文档理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本文介绍了多种基于大型语言模型(LLMs)的规划方法,包括DDN框架、LLM-Planner和SimPlan,旨在解决复杂任务的过程规划问题。研究表明,结合视觉信息和弱监督学习可以提升规划性能,尤其在教学视频中。CLIPS模型通过贝叶斯推理实现灵活的指令跟随,RAP模型通过自适应方法优化过程规划,MM-PlanLLM增强了多模态输入输出的处理能力。

提议、评估、搜索:利用大语言模型实现教学视频中的目标导向规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本研究提出了一种共享编码器,旨在提高自动驾驶中方向盘角度估计的准确性。通过融合多样化的视觉信息,该编码器增强了特征学习能力,显著改善了复杂驾驶场景下的性能。

Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-16T00:00:00Z

本研究提出了一种新颖的设计方法,旨在解决多模态大型语言模型(MLLMs)在复杂视觉信息解读中的不足。通过连接互补视觉编码器的视觉标记,模型在主要基准测试中表现优于其他开源模型,提升了一致性和性能。

Eagle: Exploring the Design Space for Multimodal Large Language Models with Mixture of Encoders

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码