量子位 ·

智谱AI版Sora开源！首个可商用，在线可玩，5小时GitHub狂揽3.7K星

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

智谱AI开源了可商用的视频生成模型CogVideoX，GitHub上获得了3.7K个Star。模型支持人物特写和一镜到底等效果，且可在线体验。模型在单卡A100上生成视频仅需90秒。技术报告公开了模型的三大技术亮点：高效的三维变分自编码器结构、专家Transformer和负面标签数据处理。

🎯

关键要点

智谱AI开源了可商用的视频生成模型CogVideoX，GitHub上获得了3.7K个Star。
CogVideoX支持人物特写和一镜到底等效果，且可在线体验。
在单卡A100上生成视频仅需90秒，推理和微调显存需求较低。
技术报告公开了三大技术亮点：高效的三维变分自编码器结构、专家Transformer和负面标签数据处理。
团队自研的三维变分自编码器结构将视频空间压缩至2%，降低了训练成本和难度。
专家Transformer通过将视频和文本嵌入拼接处理，恢复原始潜在空间形状。
开发了负面标签来识别和排除低质量视频，确保生成视频的质量。
提出了一种从图像字幕生成视频字幕的管道，以提高视频字幕生成的密度和质量。

❓

延伸问答

CogVideoX模型的主要功能是什么？

CogVideoX模型支持视频生成，能够实现人物特写和一镜到底等效果。

CogVideoX在生成视频时的性能如何？

在单卡A100上，CogVideoX生成视频仅需90秒，显存需求较低。

CogVideoX的技术亮点有哪些？

技术亮点包括高效的三维变分自编码器结构、专家Transformer和负面标签数据处理。

如何在线体验CogVideoX模型？

用户可以通过HuggingFace平台的在线demo体验CogVideoX模型。

智谱AI是如何确保生成视频质量的？

智谱AI通过开发负面标签来识别和排除低质量视频，确保生成视频的质量。

CogVideoX的开源情况如何？

CogVideoX已在GitHub上开源，并获得了3.7K个Star，支持商用。

🏷️

标签

CogVideoX GitHub ai sora 三维变分自编码器开源智谱智谱AI 视频生成模型

➡️

继续阅读

WorkBuddy重大升级，AI时代的Office来了
WorkBuddy已成为国内最受欢迎的效率智能体工具之一
字节跳动AI业务组织调整；朱一明减持兆易创新套现44亿元；三星电子半导体业务季度营业利润增长逾250倍 | 日报
（全球TMT 2026年07月30日讯）今日要点：字节跳动AI业务组织调整；朱一明减持兆易创新套现44亿元；月 […]
互联网时代的话题是「连接」，AI时代的话题是「执行」
2013年开始，OTO成为互联网的主要逻辑，随着微信、各类App成为互联网入口的主流，人们对互联网的认知逐渐达到顶峰，最后提炼出两个字：连接。在移动互联网...
AI长上下文阅读124页后仅36%合规，注意力越长规矩越崩
顶级AI在长上下文里塞进124页公司手册后只拿36分，剩下64分全栽在看见规则却偏要硬刚上，长窗口反而成了帮凶？新出的Handbook.md测试集专门测...
大学教授出奇招抓AI作弊，35名学生32人中招
7月28日消息，据科技媒体TechSpot昨天报道，美国奥尔康州立大学历史学教授杰森 · 吉布森（Jason Gibson）最近分享自己抓 AI 作弊的奇...
HBO Max新增AI驱动的发现功能，包括Shorts和对话式搜索
华纳兄弟探索频道正在为 HBO Max 引入全新的 AI 驱动的内容发现工具，包括垂直视频流和对话式搜索体验，旨在帮助订阅用户更轻松地找到节目。首个功能...