PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了PerceptionLM框架,解决了视觉语言模型的闭源问题,并发布了280万个人工标注的视频问答对,以促进详细视频理解。同时推出的PLM-VideoBench评估套件推动了透明研究的进展。

🎯

关键要点

  • 本研究提出了PerceptionLM框架,解决了视觉语言模型的闭源问题。
  • 发布了280万个人工标注的细粒度视频问答对,以促进详细视频理解。
  • 推出了PLM-VideoBench评估套件,专注于评估视频理解任务,推动透明研究的进展。
➡️

继续阅读