美团技术团队 ·

LongCat-Video 视频生成模型正式发布，探索世界模型的第一步

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

美团LongCat团队推出的LongCat-Video视频生成模型，通过多任务统一架构，实现高质量长视频生成，具备良好的时序一致性和物理合理性，为自动驾驶等应用奠定基础。

🎯

关键要点

美团LongCat团队推出LongCat-Video视频生成模型，旨在实现高质量长视频生成。
LongCat-Video通过多任务统一架构，具备良好的时序一致性和物理合理性。
世界模型是下一代智能的核心引擎，视频生成模型是构建世界模型的关键路径。
LongCat-Video支持文生、图生和视频续写三大核心任务，形成完整任务闭环。
该模型可生成720p、30fps高清视频，具备开源SOTA级别的语义理解与视觉呈现能力。
视频续写是LongCat-Video的核心差异化能力，支持长视频生成。
LongCat-Video原生支持5分钟级连贯输出，避免色彩漂移和画质降解。
模型结合块稀疏注意力与条件token缓存机制，提升长视频推理效率。
通过二阶段生成、稀疏注意力和模型蒸馏优化，LongCat-Video实现了效率与质量的平衡。
LongCat-Video在文本生成视频和图像生成视频任务中，综合性能达到开源SOTA级别。

❓

延伸问答

LongCat-Video视频生成模型的主要功能是什么？

LongCat-Video模型旨在实现高质量长视频生成，支持文生、图生和视频续写三大核心任务。

LongCat-Video如何保证视频生成的时序一致性和物理合理性？

该模型通过视频续写任务预训练和块稀疏注意力机制，确保跨帧时序一致性与物理运动合理性。

LongCat-Video在长视频生成方面有什么优势？

LongCat-Video原生支持5分钟级连贯输出，避免色彩漂移和画质降解，适合长视频生成需求。

LongCat-Video的生成效率如何？

通过二阶段生成、稀疏注意力和模型蒸馏优化，LongCat-Video的推理速度提升至10.1倍，实现效率与质量的平衡。

LongCat-Video的核心技术架构是什么？

LongCat-Video基于Diffusion Transformer（DiT）架构，采用多任务统一模型实现视频生成。

LongCat-Video在文本生成视频和图像生成视频任务中的表现如何？

LongCat-Video在这两大核心任务中综合性能达到开源SOTA级别，表现优异。

🏷️

继续阅读

生数科技认领神秘登顶模型：AI视频公司拿出工业级Demo，跨本体跑通复杂长程任务
生数科技推出的MotuBrain是一款具身智能机器人通用大脑，具备世界模型的预测和行动能力，展现出卓越的物理理解和行动能力。MotuBrain通过统一建模...
OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...
2026 年 3 月和 4 月该入手的模型手办
2026年3月和4月的特别作品主要包括《光能使者》系列的光能使者和超级光能使者，以及记录孙悟空和库林修行的龟仙屋，但缺少布尔玛和朗琪，显得不太完整。
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集
Privacy Filter 是 OpenAI 开源的双向标记分类模型，专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构，采用高效的片段解码方式。
洪绘视频整理发布！快速整理视频文件名、移动文件夹工具
该应用主要用于个人视频整理，支持通过标签命名和快速修改文件名。用户可以将下载的视频集中到一个文件夹，方便管理和搜索。软件界面简洁，支持视频预览和文件操作，...