通过稠密和精确的字幕,在大视频 - 语言模型(LVLMs)的视频理解和文本 - 视频模型(T2VMs)的视频生成方面,我们提出了 ShareGPT4Video 系列,该系列包括 40K GPT4V 标注的各种长度和来源的视频稠密字幕,通过精心设计的数据过滤和注释策略进行开发,以及有效的任意视频字幕模型 ShareCaptioner-Video 和卓越的 LVLM ShareGPT4Video-8B。
完成下面两步后,将自动完成登录并继续当前操作。