量子位 ·

游戏bug帮大模型学物理！准确率超GPT4o近4个百分点

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

开源模型PhysVLM通过分析游戏视频中的物理故障，提升了AI对物理常识的理解，准确率超越GPT-4o达3.4%。该模型在PhysGame和Video-MME等多个基准测试中表现优异，展现了其在视频理解领域的先进性能。

🎯

🔎

PhysVLM模型通过分析游戏视频中的物理故障，简化了物理常识的理解。这种方法的优势在于，游戏视频通常包含明显的物理错误，便于AI学习和评估，而不必覆盖所有正常现象。这种聚焦使得模型在特定领域的表现更为突出。

PhysGame benchmark的数据集构建经过严格的人工筛查和质量控制，确保了视频内容的相关性和准确性。这种高标准的筛选过程不仅提升了数据集的质量，也为模型训练提供了可靠的基础，增强了PhysVLM的学习效果。

PhysVLM在多个基准测试中超越了现有的开源和专有模型，尤其是在物理常识的理解上表现优异。这一成果表明，专注于特定类型数据的训练方法可能更有效，提示研究者在模型开发时考虑数据的选择和处理方式。

❓

PhysVLM通过分析游戏视频中的物理故障，简化了物理常识的理解和评估，专注于解释违反物理常识的现象。

PhysGame基准测试涵盖力学、运动学、光学和材料属性四个关键物理领域。

PhysVLM的准确率超越了GPT-4o，达到了3.4%的提升。

PhysVLM主要从Reddit和YouTube收集视频，并经过严格的人工筛查和内容检查，确保数据的质量。

PhysInstruct用于监督微调，提升物理常识理解能力；PhysDPO用于提供更可信的回答。

PhysVLM在Video-MME基准测试中表现优越，尤其在短视频和长视频上有显著提升。

🏷️