智谱AI版Sora开源!首个可商用,在线可玩,5小时GitHub狂揽3.7K星

💡 原文中文,约4800字,阅读约需12分钟。
📝

内容提要

智谱AI开源了可商用的视频生成模型CogVideoX,GitHub上获得了3.7K个Star。模型支持人物特写和一镜到底等效果,且可在线体验。模型在单卡A100上生成视频仅需90秒。技术报告公开了模型的三大技术亮点:高效的三维变分自编码器结构、专家Transformer和负面标签数据处理。

🎯

关键要点

  • 智谱AI开源了可商用的视频生成模型CogVideoX,GitHub上获得了3.7K个Star。
  • CogVideoX支持人物特写和一镜到底等效果,且可在线体验。
  • 在单卡A100上生成视频仅需90秒,推理和微调显存需求较低。
  • 技术报告公开了三大技术亮点:高效的三维变分自编码器结构、专家Transformer和负面标签数据处理。
  • 团队自研的三维变分自编码器结构将视频空间压缩至2%,降低了训练成本和难度。
  • 专家Transformer通过将视频和文本嵌入拼接处理,恢复原始潜在空间形状。
  • 开发了负面标签来识别和排除低质量视频,确保生成视频的质量。
  • 提出了一种从图像字幕生成视频字幕的管道,以提高视频字幕生成的密度和质量。
➡️

继续阅读