量子位 ·

AI看图一本正经胡说八道？「一拉一推」让模型看得全又准｜微软x清华

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

微软与清华提出BiPS模型，通过训练阶段教会模型关注关键视觉细节，解决视觉-语言模型在推理中的错误。BiPS利用“拉”和“推”机制，提升视觉理解能力，使模型在复杂任务中更准确地识别信息，推动通用智能的发展。

🎯

🔎

BiPS模型通过一拉一推的机制，重塑了视觉-语言模型的训练方式。与传统方法依赖外部提示不同，BiPS在训练阶段就教会模型如何关注关键视觉细节，从而在推理时无需额外提示。这种方法不仅提高了模型的准确性，也为未来的通用智能发展奠定了基础。

图表因其高密度和高信息量的特性，成为BiPS模型训练的理想材料。通过精确控制图表中的视觉元素，模型能够有效学习如何聚焦于与问题相关的细节。这种方法不仅提高了模型的学习效率，也使得模型在不同任务间的迁移能力得以增强。

当前视觉-语言模型在推理阶段依赖外部提示，存在显著局限性。模型可能在识别对象时表现良好，但因未能准确捕捉关键视觉证据而导致错误答案。BiPS通过在训练阶段内化视觉聚焦能力，解决了这一根本性问题，推动了模型的整体性能提升。

❓

BiPS模型旨在提升视觉-语言模型的推理能力，特别是通过训练阶段教会模型关注关键视觉细节。

BiPS通过在训练阶段教会模型识别重要视觉证据，避免在推理阶段依赖外部提示，从而减少错误。

“一拉一推”机制包括先将模型的视线拉回所有相关证据，再推向真正关键的细节，以确保模型既能看全又能看准。

BiPS模型使用图表作为训练材料，这些图表提供高密度、高信息量的视觉场景，帮助模型学习聚焦关键线索。

在13K训练样本上微调后，BiPS模型在多个评测基准上显著提升了性能，平均准确率提高了7.3%。

BiPS模型的成功表明，模型学会了可迁移的“看对地方”的能力，向通用智能的发展迈出了关键一步。

🏷️