模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布
💡
原文中文,约3000字,阅读约需7分钟。
📝
内容提要
IWR-Bench是一个新基准,用于评估多模态大模型在动态网页重建中的能力。研究表明,GPT-5的得分仅为36.35,显示出其在生成交互逻辑方面的不足。该基准要求模型理解并复现用户操作视频中的网页动态行为,标志着AI在静态网页理解向动态交互理解的重要进展。
🎯
关键要点
- IWR-Bench是一个新基准,用于评估多模态大模型在动态网页重建中的能力。
- GPT-5在IWR-Bench中的得分仅为36.35,显示出其在生成交互逻辑方面的不足。
- IWR-Bench要求模型观看用户操作视频,并结合网页静态资源理解并复现动态行为。
- 该基准涵盖113个网站任务和1001次交互动作,任务复杂性从简单浏览到复杂游戏逻辑。
- 评测采用双重评分体系,功能正确性(IFS)和视觉保真度(VFS)分别评估模型表现。
- 研究发现,模型在视觉效果上表现较好,但在生成事件驱动逻辑方面存在严重不足。
- 专有视频理解模型表现不如通用多模态模型,表明任务与传统视频理解有显著差异。
- IWR-Bench的推出标志着AI从理解静态网页向理解动态交互的重要进展。
❓
延伸问答
IWR-Bench是什么?
IWR-Bench是一个新基准,用于评估多模态大模型在动态网页重建中的能力。
GPT-5在IWR-Bench中的表现如何?
GPT-5在IWR-Bench中的得分仅为36.35,显示出其在生成交互逻辑方面的不足。
IWR-Bench评测的主要挑战是什么?
IWR-Bench的主要挑战包括多模态理解、推理和高级代码生成。
IWR-Bench与传统网页代码生成基准有什么不同?
IWR-Bench专注于动态视频转可交互网页代码,而传统基准主要聚焦于静态截图转代码。
评测中使用了什么样的评分体系?
评测采用双重评分体系,功能正确性(IFS)和视觉保真度(VFS)分别评估模型表现。
IWR-Bench的推出有什么重要意义?
IWR-Bench的推出标志着AI从理解静态网页向理解动态交互的重要进展。
➡️