张洪Heo ·

如何用一张图片生成说话视频

💡 原文中文，约1100字，阅读约需3分钟。

📝

内容提要

本文介绍了视频制作流程，包括文本、声音、图像和视频几个部分。使用AI模型生成文本，VALL-E X生成声音，制作图像要求正脸和清晰嘴唇。视频部分使用CrazyTalk软件，包括导入图像、调整脸部特征和导入声音等步骤。文章提供了示例图片和软件下载链接。

🎯

关键要点

视频制作流程分为文本、声音、图像和视频几个部分。
文本部分由AI模型生成，声音通过VALL-E X生成。
图像制作要求使用正脸图像，嘴唇要清晰可见。
视频部分使用CrazyTalk软件，步骤包括导入图像、调整脸部特征和导入声音。
提供了示例图片和软件下载链接。
文本部分是整个流程中最简单的部分。
VALL-E X生成声音相对容易，提供了本地部署和教程视频的参考。
图像制作建议使用stablediffusion的controlnet的IP Adapter Full Face。
生成视频时需使用CrazyTalk软件，导入图片并调整面部特征。
导入声音时，音频长度不超过3分钟，需选择“仅嘴唇同步”的动作。

🏷️

继续阅读

远程控制安卓工具 Scrcpy 4.1 发布，新增 VP8 / VP9 视频编码支持，让更多安卓设备可以投屏
著名的开源电脑控制安卓工具 Scrcpy 4.1 已经发布，新增支持 VP8 / VP9 视频编码，可以让不支持 H.264、H.265 或 AV1 编码...
Getty Images扩大与Goalhanger的合作关系，加大对视频优先叙事方式的投资
视觉内容创作和市场 Getty Images 和独立播客制作商 Goalhanger 宣布扩大内容合作关系，以支持 Goalhanger 在其节目组合中不...
视频问诊延迟来自哪里：采集、编码、传输、渲染逐段拆解
视频问诊时画面卡住、声音和口型对不上，这些场景线上问诊的用户多少都遇到过。很多人第一反应是”网太差了”，实际上网络只是延迟链条上的一环。这篇把延迟从采集到渲...
Big Blue Marble 为云视频工具包添加了 C2PA 验证功能
Big Blue Marble 宣布已加入 C2PA 合规列表，该公司可以通过其云视频工具包（Cloud Video Kit）为视频内容生成有效的内容凭证...
AWS Billing Bug Shows Customers Trillion-Dollar Estimates While Its Own Cost Alarms Fail to Act
A configuration change in AWS's bill computation system showed customers ...
【公共云三十问之九】先进公共云的发展蓝图包括哪些方面？
等能力，高效聚合数据、算力、算法等智能要素，可靠转化为可调用、可扩展、可复用的智能服务，并广泛、便捷地触达产业、民生、科技和全球发展等关键应用场景，充分发...

内容提要

关键要点

标签

继续阅读