量子位 ·

模型“看视频写网页”，GPT-5仅36.35分！首个video2code基准发布

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

IWR-Bench是一个新基准，用于评估多模态大模型在动态网页重建中的能力。研究表明，GPT-5的得分仅为36.35，显示出其在生成交互逻辑方面的不足。该基准要求模型理解并复现用户操作视频中的网页动态行为，标志着AI在静态网页理解向动态交互理解的重要进展。

🎯

🔎

IWR-Bench的推出强调了动态网页交互在现代网站中的核心地位。与传统的静态网页生成相比，动态交互不仅涉及视觉呈现，还包括用户操作的实时反馈。这一转变要求AI模型具备更高的理解和生成能力，以适应复杂的用户需求和交互逻辑。

尽管GPT-5在视觉保真度上表现较好，但其功能正确性得分仅为24.39%，显示出在生成交互逻辑方面的显著不足。这一结果提示开发者在使用AI进行网页重建时，需关注模型在实际操作中的表现，而不仅仅是视觉效果。

研究表明，通用多模态模型在IWR-Bench中的表现优于专门针对视频理解的模型。这一发现提示我们，针对特定任务的模型并不总是最佳选择，开发者在选择模型时应考虑其多模态能力的全面性和适应性。

❓

IWR-Bench是一个新基准，用于评估多模态大模型在动态网页重建中的能力。

GPT-5在IWR-Bench中的得分仅为36.35，显示出其在生成交互逻辑方面的不足。

IWR-Bench的主要挑战包括多模态理解、推理和高级代码生成。

IWR-Bench专注于动态视频转可交互网页代码，而传统基准主要聚焦于静态截图转代码。

评测采用双重评分体系，功能正确性（IFS）和视觉保真度（VFS）分别评估模型表现。

IWR-Bench的推出标志着AI从理解静态网页向理解动态交互的重要进展。

🏷️