字节跳动推出的OmniHuman方案能够根据单张图片和音频生成生动的人物视频,支持多种输入形式,并显著改善手势崩坏问题。该技术通过混合多模态训练,克服了高质量数据稀缺的挑战,提升了生成效果。
完成下面两步后,将自动完成登录并继续当前操作。