小红花·文摘

具身智能资源汇总：机器人学习数据集，在线体验世界建模模型，英伟达/字节/小米等最新研究论文……

HyperAI超神经 ·

Jina-VLM：小型多语言视觉语言模型

Jina AI ·

字节与南洋理工大学的研究通过强化学习优化了多模态模型的搜索策略，实现按需搜索，减少了30%的搜索次数并提高了准确性。MMSearch-R1系统在视觉问答任务中表现出色，增强了模型自主获取信息的能力，为多模态智能体的发展奠定了基础。

多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

量子位 ·

您应该为您的应用选择哪些视觉语言模型

The New Stack ·

Peekaboo MCP – 为AI代理提供闪电般快速的macOS屏幕截图

Peter Steinberger ·

本研究提出了一种多模态辩论框架，旨在解决大型语言模型的监督问题。该框架在视觉问答任务中优于单一专家模型，提升了视觉-语言模型的推理能力。

Enhancing Reasoning through Debate: An Unsupervised Multimodal Approach

BriefGPT - AI 论文速递 ·

本研究提出了一种新的多模态任务——视觉问答（VoQA），要求模型根据图像中的视觉问题进行理解和回答。通过引入监督微调策略，显著提升了模型的推理能力和对复杂场景的理解。

视觉问答：仅基于视觉的问答

BriefGPT - AI 论文速递 ·

UniME：多语言大模型在通用多模态嵌入中超越CLIP

DEV Community ·

本研究提出了一种基于分割符合预测框架的方法，旨在减轻大型视觉语言模型在视觉问答任务中的虚假内容问题。该方法通过动态阈值标定和跨模态一致性验证，在用户定义的风险水平下构建具有统计保证的预测集，适用于医疗和自动化系统等安全关键领域。

基于归纳符合预测的大型视觉语言模型预测集的数据驱动标定

BriefGPT - AI 论文速递 ·

本研究提出了一种多模态仇恨检测框架，能够识别恶意表情包，结合OCR、字幕生成和视觉问答等技术，有效提取复杂的恶意信号，实验结果显示其准确性优于现有模型。

Detecting and Understanding Hateful Content in Memes Through Captioning and Visual Question-Answering

BriefGPT - AI 论文速递 ·

本研究提出了一种查询无关视觉攻击（QAVA），旨在针对大规模视觉语言模型在视觉问答任务中的脆弱性，生成稳健的对抗样本，从而提高在未知问题下的攻击有效性和效率。

QAVA: Query-Agnostic Visual Attack on Large-Scale Vision-Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种名为开放式视觉拼图生成（OVPG）的动态评估框架PuzzleBench，旨在解决现有评估基准静态且易受污染的问题。该框架自动生成多样化的评估数据，包含11840个视觉问答样本，以支持大型多模态模型在视觉识别、逻辑推理和上下文理解等领域的评估。

PuzzleBench: A Comprehensive Dynamic Evaluation Framework for Large Multimodal Models in Puzzle Solving

BriefGPT - AI 论文速递 ·

本文提出了一种新颖的多模态检索增强生成框架MMKB-RAG，旨在解决大型语言模型在生成最新信息时的局限性和准确性风险。实验结果表明，该方法在视觉问答任务中显著提升了性能和鲁棒性。

Multi-Modal Knowledge-Driven Retrieval-Augmented Generation Framework MMKB-RAG

BriefGPT - AI 论文速递 ·

本研究探讨了认知神经科学在自然语言处理中的应用，特别是眼动追踪信号的整合。通过用户中心的认知信号，提出了一种有效的数据增强方法，提升了视觉问答任务的表现，并减少了多模态大语言模型中的幻觉现象。

Integrating Cognitive Processing Signals into Language Models: A Review of Progress, Applications, and Future Directions

BriefGPT - AI 论文速递 ·

推理延展到真实物理世界，英伟达Cosmos-Reason1：8B具身推理表现超过OpenAI ο1

机器之心 ·

本研究提出了一种名为“真相透镜”的无训练框架，旨在提升深度伪造检测的可解释性。通过将检测任务转化为视觉问答，并结合视觉语言模型，增强了对图像真实性的识别与解释能力，从而提高用户信任。

Truth Lens: A Untrained Paradigm for Deepfake Detection

BriefGPT - AI 论文速递 ·

本研究提出了VisualWebInstruct方法，通过网络搜索创建了一个多模态指令数据集，涵盖数学、物理、金融等多个学科。利用30,000张种子图像，构建了约90万对问答对，其中40%为视觉问答对。经过微调的模型在复杂推理任务中表现显著提升，证明该数据集有效提升了视觉语言模型的推理能力。

VisualWebInstruct: Scaling Up Multimodal Instruction Data through Web Search

BriefGPT - AI 论文速递 ·

本研究提出了BioD2C框架，旨在解决生物医学视觉问答模型在复杂任务中的多模态语义对齐不足问题。通过双层语义一致性约束，该框架提升了模型的视觉特征学习能力，并在新数据集BioVGQ上训练，展现出优异的性能和适应性。

BioD2C: A Dual-Level Semantic Consistency Constraint Framework for Biomedical Visual Question Answering

BriefGPT - AI 论文速递 ·

本文研究了视觉问答（VQA）中的数据集偏见、模型复杂性和常识推理问题。通过比较五种先进的VQA模型，提出了各自独特的方法，以提升模型的鲁棒性和实用性。

Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison

BriefGPT - AI 论文速递 ·

本研究提出了PitVQA++和向量矩阵低秩适应方法，以解决手术视觉问答中的数据集有限、过拟合和灾难性遗忘问题，显著提升了模型在相关数据集上的性能。

PitVQA++: Vector-Matrix Low-Rank Adaptation for Open-Ended Visual Question Answering in Pituitary Surgery

BriefGPT - AI 论文速递 ·