量子位 ·

多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

字节与南洋理工大学的研究通过强化学习优化了多模态模型的搜索策略，实现按需搜索，减少了30%的搜索次数并提高了准确性。MMSearch-R1系统在视觉问答任务中表现出色，增强了模型自主获取信息的能力，为多模态智能体的发展奠定了基础。

🎯

🔎

MMSearch-R1系统通过强化学习实现了多模态模型的自主搜索能力，使其能够在真实环境中判断何时搜索和搜索什么。这一能力的提升，不仅减少了搜索次数，还提高了准确性，显示出多模态模型在复杂任务中的潜力。

研究表明，强化学习在提升模型性能方面优于传统的监督微调方法。通过优化搜索策略和奖励机制，MMSearch-R1能够在知识密集型任务中实现更高的准确率，展示了强化学习在多模态模型训练中的重要性。

FactualVQA数据集的构建确保了多样化的视觉概念和问答场景，为模型的训练提供了丰富的素材。这种精心设计的数据集不仅提升了模型的学习效果，也为未来的多模态研究提供了宝贵的参考。

❓

MMSearch-R1系统通过强化学习优化了多模态模型的搜索策略，实现按需搜索，减少了30%的搜索次数并提高了准确性。

MMSearch-R1采用GRPO算法进行多轮搜索强化学习训练，使模型能够自主判断搜索时机和内容，并有效处理搜索结果。

FactualVQA数据集旨在有效训练模型实现智能化的按需搜索能力，确保覆盖多样化的视觉概念和问答场景。

在知识密集型视觉问答任务中，MMSearch-R1-7B的准确率比同等规模模型的传统RAG基线高出约3%，且搜索比率降低了32.9%。

研究通过集成网络搜索工具，使多模态模型具备自主、精准的外部信息获取能力，从而克服知识获取的局限性。

强化学习展现出比监督微调更大的潜力，提升了模型的搜索和推理能力，使其在知识密集型任务中表现优异。

🏷️