小红花·文摘

通过稠密和精确的字幕，在大视频 - 语言模型（LVLMs）的视频理解和文本 - 视频模型（T2VMs）的视频生成方面，我们提出了 ShareGPT4Video 系列，该系列包括 40K GPT4V 标注的各种长度和来源的视频稠密字幕，通过精心设计的数据过滤和注释策略进行开发，以及有效的任意视频字幕模型 ShareCaptioner-Video 和卓越的 LVLM ShareGPT4Video-8B。