机器之心 ·

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

智谱AI开源了视频生成模型CogVideoX，该模型可生成高精度视频，已在国内获得好评。模型包含多个尺寸大小的模型，推理和微调所需的显存较小。智谱AI使用3D VAE视频压缩方法，结合了L2损失、LPIPS感知损失和3D判别器的GAN损失。智谱AI还提出了一种从图像字幕生成视频字幕的管道，并微调了视频字幕模型。智谱AI使用多个指标评估文本到视频生成的质量。未来，智谱AI将继续探索新型模型架构和更高效的视频压缩方法。

🎯

关键要点

智谱AI开源了视频生成模型CogVideoX，获得国内好评。
CogVideoX模型包含多个尺寸，推理和微调显存需求较小。
智谱AI采用3D VAE视频压缩方法，结合多种损失函数。
智谱AI提出从图像字幕生成视频字幕的管道，并微调了相关模型。
使用多个指标评估文本到视频生成的质量。
未来将探索新型模型架构和更高效的视频压缩方法。

❓

延伸问答

CogVideoX模型的主要特点是什么？

CogVideoX模型包含多个尺寸，推理和微调显存需求较小，支持在单张4090显卡上进行推理。

智谱AI是如何评估视频生成质量的？

智谱AI使用多个指标评估视频生成质量，包括人类动作、场景和动态程度等，并使用额外的评估工具。

智谱AI的3D VAE视频压缩方法有什么优势？

3D VAE视频压缩方法通过三维卷积同时压缩视频的空间和时间维度，实现更高的压缩率和更好的重建质量。

CogVideoX模型的应用场景有哪些？

CogVideoX模型适用于视频生成、创意视频制作等场景，尤其是需要高精度视频的应用。

智谱AI未来的计划是什么？

智谱AI计划继续探索新型模型架构和更高效的视频压缩方法，以推动视频生成技术的发展。

如何使用智谱AI的清影产品？

用户可以通过清言App体验清影产品，只需提供创意和耐心，便可生成高精度视频。

🏷️