智谱AI版Sora开源!首个可商用,在线可玩,5小时GitHub狂揽3.7K星
💡
原文中文,约4800字,阅读约需12分钟。
📝
内容提要
智谱AI开源了可商用的视频生成模型CogVideoX,GitHub上获得了3.7K个Star。模型支持人物特写和一镜到底等效果,且可在线体验。模型在单卡A100上生成视频仅需90秒。技术报告公开了模型的三大技术亮点:高效的三维变分自编码器结构、专家Transformer和负面标签数据处理。
🎯
关键要点
- 智谱AI开源了可商用的视频生成模型CogVideoX,GitHub上获得了3.7K个Star。
- CogVideoX支持人物特写和一镜到底等效果,且可在线体验。
- 在单卡A100上生成视频仅需90秒,推理和微调显存需求较低。
- 技术报告公开了三大技术亮点:高效的三维变分自编码器结构、专家Transformer和负面标签数据处理。
- 团队自研的三维变分自编码器结构将视频空间压缩至2%,降低了训练成本和难度。
- 专家Transformer通过将视频和文本嵌入拼接处理,恢复原始潜在空间形状。
- 开发了负面标签来识别和排除低质量视频,确保生成视频的质量。
- 提出了一种从图像字幕生成视频字幕的管道,以提高视频字幕生成的密度和质量。
➡️