模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布

💡 原文中文,约3000字,阅读约需7分钟。
📝

内容提要

IWR-Bench是一个新基准,用于评估多模态大模型在动态网页重建中的能力。研究表明,GPT-5的得分仅为36.35,显示出其在生成交互逻辑方面的不足。该基准要求模型理解并复现用户操作视频中的网页动态行为,标志着AI在静态网页理解向动态交互理解的重要进展。

🎯

关键要点

  • IWR-Bench是一个新基准,用于评估多模态大模型在动态网页重建中的能力。
  • GPT-5在IWR-Bench中的得分仅为36.35,显示出其在生成交互逻辑方面的不足。
  • IWR-Bench要求模型观看用户操作视频,并结合网页静态资源理解并复现动态行为。
  • 该基准涵盖113个网站任务和1001次交互动作,任务复杂性从简单浏览到复杂游戏逻辑。
  • 评测采用双重评分体系,功能正确性(IFS)和视觉保真度(VFS)分别评估模型表现。
  • 研究发现,模型在视觉效果上表现较好,但在生成事件驱动逻辑方面存在严重不足。
  • 专有视频理解模型表现不如通用多模态模型,表明任务与传统视频理解有显著差异。
  • IWR-Bench的推出标志着AI从理解静态网页向理解动态交互的重要进展。

延伸问答

IWR-Bench是什么?

IWR-Bench是一个新基准,用于评估多模态大模型在动态网页重建中的能力。

GPT-5在IWR-Bench中的表现如何?

GPT-5在IWR-Bench中的得分仅为36.35,显示出其在生成交互逻辑方面的不足。

IWR-Bench评测的主要挑战是什么?

IWR-Bench的主要挑战包括多模态理解、推理和高级代码生成。

IWR-Bench与传统网页代码生成基准有什么不同?

IWR-Bench专注于动态视频转可交互网页代码,而传统基准主要聚焦于静态截图转代码。

评测中使用了什么样的评分体系?

评测采用双重评分体系,功能正确性(IFS)和视觉保真度(VFS)分别评估模型表现。

IWR-Bench的推出有什么重要意义?

IWR-Bench的推出标志着AI从理解静态网页向理解动态交互的重要进展。

➡️

继续阅读