阿里通义实验室推出OmniTalker模型,用户只需上传参考视频即可生成同步的数字人视频和语音,降低成本并提升真实感。该项目已在多个平台开放体验,支持多种模板,用户可免费使用。
马斯克的xAI推出了新文生图模型Aurora,生成的人物图像非常逼真,吸引了网友测试。Aurora上线仅数小时,效果显著,尤其在人物生成上优于Flux模型。马斯克表示这是测试版,未来将改进,并预告Grok 3的到来。
LivePortrait 最新版本简化了从单一图像生成动态视频的过程,特别是在眼睛和嘴唇同步方面。用户可以通过上传图片和参考视频,精确控制细节,生成高质量视频。HyperAI 提供了一键启动的开源教程。
本研究通过模块化设计开发了双分支扩散模型(HOI-DM)和互动预测扩散模型(APDM),用于生成逼真的三维人-物互动。实验结果表明,该方法能够产生具有各种互动和不同类型物体的逼真的人-物互动。
Midjourney v6.1发布并获得用户积极反馈。新版本在图像质量、一致性和细节方面进行了升级。最显著的改进是肖像生成几乎完美。然而,在生成大群人时仍存在挑战。总体而言,Midjourney v6.1版本更加逼真,生成更合理的图像。
本研究提出了一种基于深度学习的视听生成模型,能够生成逼真的视听同步音轨,并在实验中表现优于其他模型和数据集。
该研究开发了双分支扩散模型(HOI-DM)和互动预测扩散模型(APDM),用于生成逼真的三维人 - 物互动。实验结果表明,该方法能够产生具有各种互动和不同类型物体的逼真的人 - 物互动。
本研究提出了一种生成式对抗网络架构,用于生成逼真的人体图像。该模型通过限定人体轮廓和控制服装类型生成高质量图片。实验证明,该方法生成的图像逼真且难以区分真假。
Talk3D是一种音频驱动的说话头合成框架,通过预训练的3D感知生成先验模型,可以重建面部几何形状。该方法在生成逼真的面部形状方面表现出色,并超越了现有基准。
本文提出了一个新的框架,用于从野外视频中重建人体和场景,并提供新的人体姿势和视角渲染的方法。通过训练两个NeRF模型,可以从观察空间创建到无关姿态的规范空间的偏移场,进而在规范空间中训练人体模型。该方法能够从仅10秒的视频剪辑中学习特定主题的细节,并提供高质量的人体渲染和背景。
该论文提出了一种即时的、逼真的风格迁移方法,无需预训练或额外约束。通过使用轻量级的StyleNet,实现了从风格图像到内容图像的风格迁移。实验结果表明,该方法需要更少的GPU内存使用,提供更快的多帧迁移速度,并生成逼真的输出。
该研究提出了一种半监督模型来解决夜间去雾问题,通过空间注意力和频率谱滤波进行信息交互处理。研究还设计了重新训练策略,以抑制雾气和光晕并实现真实亮度。实验证实了该方法的有效性和优越性。
FactKB是一种新的事实评估方法,使用实体知识的语言模型,解决了现有模型在新领域中的错误问题。FactKB在新闻和科学文献数据上表现出最先进的性能,并能显著提高摘要中错误实体和关系的检测能力。
本研究通过模块化设计开发了双分支扩散模型(HOI-DM)和互动预测扩散模型(APDM),用于生成逼真的三维人-物互动。实验结果表明该方法能够产生具有各种互动和不同类型物体的逼真的人-物互动。
该研究提出了一种新的方法,通过零散视频合成人类真实照片。该方法解决了几何、材质和光照问题,能够生成高质量的几何和逼真的阴影。实验证明该方法有效。
本文介绍了一种无监督方法,用于提供训练良好的局部潜在子空间,使得通过潜在编码的导航能够保持生成图像的真实感。
通过使用动物和人类的知识来激发机器人创新,提出了一个框架,使四肢机器人具备像真实动物一样的灵活性和策略。通过利用深度生成模型产生模拟动物行为的运动控制信号,通过预训练感知动物运动的生成模型,将原始知识保留并重复利用于环境适应性学习阶段,最终通过任务特定控制器解决任务,推动了机器人控制的前沿。
本文介绍了一种名为Unsupervised Prototype Adapter (UP-Adapter)的无监督微调方法,利用CLIP的文本-图像对齐能力自动选择每个类别中最有信心的样本,并生成类别原型,用于可学习的原型模型的初始化。经过微调后,通过剩余连接将原型模型的预测与原始CLIP的预测相结合,用于下游识别任务。实验结果表明,该方法在图像识别和领域泛化方面取得了显著优势。
本文提出了一种基于学习的模型,利用少量单目视频帧从移动的人中推断出其个性化的3D形状,重建精度为5mm。该模型学习预测统计体型模型的参数和实例化偏移量,同时加入衣服和头发的形状,具有快速和准确的预测。该模型仅基于合成的3D数据进行学习,可将可变数量的帧作为输入,即使仅有一张图像,也能以6mm的精度重建形状。三个不同数据集的结果表明了本方法的有效性和准确性。
完成下面两步后,将自动完成登录并继续当前操作。