小红花·文摘

让Skill“有图可依”：openJiuwen首发多模态Skill范式Skill-Omni

量子位 ·

华为诺亚方舟实验室提出的视觉感知投机推理（ViSpec）算法，将多模态大模型的推理速度提升至最高3.22倍，同时保持生成质量。这一创新有效解决了现有方法在处理视觉信息时的效率问题，为多模态模型的应用提供了新方案。

多模态推理最高加速3.2倍！华为诺亚新算法入选NeurIPS 2025

量子位 ·

利用音视频数据缩小自监督语音模型中的多语言差距

Apple Machine Learning Research ·

SceneScout：面向盲人用户的AI代理驱动街景图像访问

Apple Machine Learning Research ·

本研究提出了一种多模态模型MM-When2Speak，旨在解决大型语言模型在实时对话中的反应时机问题。该模型结合视觉、听觉和文本信息，能够准确预测何时及如何回应。实验结果表明，其在响应时机的准确性上显著优于现有模型，强调了多模态输入在对话AI中的重要性。

Beyond Words: Multimodal Large Language Models Know When to Speak

BriefGPT - AI 论文速递 ·

本研究提出了一种图视觉网络（GVN）框架，旨在解决传统图神经网络在链接预测中未充分利用视觉信息的问题。实验结果表明，该框架在多个数据集上表现优异，为链接预测提供了新的研究方向。

Expanding the Horizon of MPNN: The Application of Vision-Enhanced MPNN in Link Prediction

BriefGPT - AI 论文速递 ·

本研究提出了MuSeD数据集，用于检测社交媒体视频中的性别歧视，包含约11小时的西班牙语视频。研究表明，视觉信息对识别性别歧视内容至关重要，但模型在隐性歧视的识别上表现不佳，反映了任务的复杂性。

MuSeD: A Multimodal Spanish Dataset for Sexism Detection in Social Media Videos

BriefGPT - AI 论文速递 ·

本研究提出了TMCIR框架，解决组合图像检索中视觉与文本信息融合的偏差问题。通过意图感知的跨模态对齐和自适应标记融合，提升了特征检索的平衡性与准确性，实验结果表明其在捕捉用户意图方面优于现有方法。

TMCIR: Advantages of Token Merging in Composed Image Retrieval

BriefGPT - AI 论文速递 ·

jina-reranker-m0：多语言多模态文档排序器

Jina AI ·

LaViC框架旨在解决对话推荐系统中缺乏细致视觉信息的问题。通过整合图像表示，LaViC实现了文本与视觉特征的统一捕捉，显著提升了推荐系统的性能，强调了视觉数据在捕捉产品属性中的重要性。

LaViC: Adapting Large Vision-Language Models for Visually-Aware Conversational Recommendation Systems

BriefGPT - AI 论文速递 ·

解锁视觉智能：TULIP模型在人工智能中的力量

DEV Community ·

本研究提出了一种名为分层模态感知剪枝（HiMAP）的方法，旨在解决多模态大语言模型中的视觉信息处理问题。该方法能够动态剪枝图像标记，降低约65%的计算成本，同时不影响性能，为视觉信息处理提供了新的视角。

揭开多模态大语言模型中视觉信息流的面纱：加速推理的途径

BriefGPT - AI 论文速递 ·

本研究探讨了视觉信息在多模态数学推理中的重要性，并提出了HC-M3D数据集以评估模型对视觉信息的依赖。结果表明，现有模型在识别视觉差异方面能力有限，强调了提升数学推理视觉依赖性的必要性。

The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights

BriefGPT - AI 论文速递 ·

该研究提出了一种新方法，结合稳定扩散的想象网络和增强学习，有效利用视觉信息，显著提升多模态翻译效果。

Making Imagination Clearer! Visual Imagination in Multimodal Machine Translation Based on Stable Diffusion

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过结合音频特征与视觉信息，生成自然声音对应的视觉场景图像。该方法在VEGAS和VGGSound数据集上显著提高了生成效果，展示了对生成过程的控制能力，证明了其适用性和通用性。

Sound to Vision: Generating Diverse Visual Images through Cross-Modal Latent Alignment

BriefGPT - AI 论文速递 ·

本研究探讨了多模态大型语言模型中语言与视觉信息的互动机制，分析了视觉问答中的信息流。实验表明，信息整合分为两个阶段，为图像和语言处理提供了新视角，推动了多模态信息研究。

多模态大型语言模型中的跨模态信息流

BriefGPT - AI 论文速递 ·

本文探讨了多模态大型语言模型（VLMs）在视觉与文本信息对齐中的挑战，提出了一种创新的图像标记器，通过字节对编码将结构先验信息融入图像符号，从而显著提升模型的多模态理解能力和可扩展性。同时，研究揭示了视觉标记与文本标记的层次对应关系，推动了多模态系统的可解释性与可控性的发展。

分析视觉符号的语言

BriefGPT - AI 论文速递 ·

本文提出了一种基于图卷积的模型，结合文本和视觉信息进行实体抽取。实验证明该模型在发票和简历数据集上的性能优于BiLSTM-CRF模型，能够通过少量标记数据和转移学习实现高效的信息提取，尤其在处理复杂文档时表现出色，显著提高了提取效率和准确性。

DAViD：基于合成见解的领域自适应视觉丰富文档理解

BriefGPT - AI 论文速递 ·

本文介绍了多种基于大型语言模型（LLMs）的规划方法，包括DDN框架、LLM-Planner和SimPlan，旨在解决复杂任务的过程规划问题。研究表明，结合视觉信息和弱监督学习可以提升规划性能，尤其在教学视频中。CLIPS模型通过贝叶斯推理实现灵活的指令跟随，RAP模型通过自适应方法优化过程规划，MM-PlanLLM增强了多模态输入输出的处理能力。

提议、评估、搜索：利用大语言模型实现教学视频中的目标导向规划

BriefGPT - AI 论文速递 ·

本研究提出了一种共享编码器，旨在提高自动驾驶中方向盘角度估计的准确性。通过融合多样化的视觉信息，该编码器增强了特征学习能力，显著改善了复杂驾驶场景下的性能。

Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference

BriefGPT - AI 论文速递 ·