美团开源的LongCat-Video视频生成模型通过统一架构处理多种视频生成任务,具备长视频生成能力和高效推理,在文生视频和图生视频任务中表现优异,标志着世界模型构建的重要进展。
智象未来推出全球首个开放使用的DiT模型,依托商汤强大的AI基础设施,实现快速模型迭代。该模型高效、灵活、稳定,广泛应用于影视和教育领域,推动文生视频技术发展。
多模态生成大模型能够同时生成多种数据形式,尤其是文生视频模型如HunyuanVideo和Wan2.1,通过深度学习架构提升视频生成质量,广泛应用于创意产业,推动AI发展。
Adobe于2月12日发布了Firefly文生视频AI模型,支持文本和图像生成视频,目前处于Beta测试阶段。Apple TV应用已上线Android平台,用户可访问Apple TV+内容。腾讯翻译君将于3月13日停止运营,功能迁移至腾讯元宝。谷歌Chrome新增的自动改密功能被指为AI炒作。OpenAI计划推出GPT-4.5,并推进模型整合。
白日梦AI是一款先进的文生视频创作平台,能够将文本转换为高质量视频,支持角色自定义、风格选择和分镜编辑,适用于儿童故事、广告和艺术创作,显著提升创作效率。
本文介绍了一款强大的AI工具,支持文生视频、图生视频和音乐生成,适用于极空间NAS的部署。文章详细说明了部署步骤和设置方法,并强调用户需自备API Key。
腾讯开源的HunYuan-Video视频生成模型拥有130亿参数,提供超写实画质和流畅动态,支持多视角切换。该模型在语义理解和创作方面表现出色,推动了视频生成领域的开源生态发展。
阿里通义将在云栖大会期间发布视频生成大模型,包含文生视频和图生视频两种创作模式,具备强大的画面视觉动态生成能力,支持多语言和适配多种规格比例的视频。
本文对四个国产Sora进行了全方位评测,分为图生视频和文生视频两个赛道,评测结果显示可灵在生成墨镜方面胜出,PixVerse V2在生成末日场景方面胜出,Vidu在生成老照片方面表现较好。在文生视频中,各选手都有特点但存在问题。Vidu生成速度最快,清影的速度高于其他两位。综合来看,目前无法判定哪个国产Sora最强。
华为云开发者大会2024推出了HarmonyOS、盘古大模型、昇腾AI云服务、GaussDB数据库等创新成果。华为云技术专家和开发者代表在线上分享了云原生应用稳定性、文生视频技术、数据库应用痛点和AI原生应用引擎等内容。华为云开发者联盟愿与开发者们继续合作,推动技术创新。
可灵AI新增了图生视频和视频续写功能,以及文生视频多比例选择。Poe上线了Claude 3.5 Sonnet。中科院人大百川提出了视频理解新基准VideoNIAH。Perplexity AI是一款功能强大的AI搜索引擎。
快手推出了名为可灵AI的视频生成模型,具有高效的训练基础设施和可扩展的基础架构。该模型能够生成长达2分钟、帧率达30fps的视频,采用3D时空联合注意力机制,能够建模复杂时空运动,生成较大幅度运动的视频内容。可灵AI还能模拟真实世界的物理特性,生成符合物理规律的视频。用户可以通过申请试用来体验该模型。
MoneyPrinterTurbo是一款开源的文生视频AI工具,可以根据提供的主题或关键词自动生成高清短视频。支持多种视频尺寸和中英文,方便个性化字幕设置。支持多种模型接入和批量视频生成。可以在电脑上部署或通过网页版链接使用。
本文介绍了Open-Sora 1.1的视频生成效果和体验方法。Open-Sora是一个开源解决方案,可生成2s~15s,144p到720p分辨率的视频,支持文本到图像、文本到视频和图像到视频的生成。用户可以通过运行代码和模型来体验Open-Sora 1.1的视频生成效果。
自OpenAI推出Sora以来备受关注的文生视频概念及应用。DiT是一个文生图模型,将U-Net架构替换为Transformer架构。上海人工智能实验室开源了全球首个文生视频DiT:Latte,可自由部署。Latte通过预训练的变分自编码器将视频编码为特征,并利用Transformer结构进行编码和解码,生成连续、逼真的视频内容。Latte的研发团队与中央广播电视总台合作推出了中国原创文生视频动画。文生视频应用有望加速落地,推动影视行业的革命性发展。
OpenAI的首个视频生成模型sora引发了对文生图和文生视频的热情。清华大学团队推出了Latent Consistency Models (LCM),通过解决潜在空间中的概率流ODE,实现了快速的一步生成。LCM-LoRA是LCM的一种快速、无需训练的推理方法。Stable Diffusion XL Turbo是一种新一代图像合成模型,能够实时响应并生成图像。SDXL使用对抗扩散蒸馏技术,在1-4步内高效采样大规模基础图像扩散模型。
OpenAI的文生视频利用transformer架构生成高保真视频,具有控制视频大小和执行图像和视频编辑任务的能力。模型展现了模拟物理世界的能力。虽然目前仅对个别人开放,但未来全民开放只是时间问题。
完成下面两步后,将自动完成登录并继续当前操作。