PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了PerceptionLM框架,解决了视觉语言模型的闭源问题,并发布了280万个人工标注的视频问答对,以促进详细视频理解。同时推出的PLM-VideoBench评估套件推动了透明研究的进展。
🎯
关键要点
- 本研究提出了PerceptionLM框架,解决了视觉语言模型的闭源问题。
- 发布了280万个人工标注的细粒度视频问答对,以促进详细视频理解。
- 推出了PLM-VideoBench评估套件,专注于评估视频理解任务,推动透明研究的进展。
➡️