阿里通义实验室推出OmniTalker模型,用户只需上传参考视频即可生成同步的数字人视频和语音,降低成本并提升真实感。该项目已在多个平台开放体验,支持多种模板,用户可免费使用。
马斯克的xAI推出了新文生图模型Aurora,生成的人物图像非常逼真,吸引了网友测试。Aurora上线仅数小时,效果显著,尤其在人物生成上优于Flux模型。马斯克表示这是测试版,未来将改进,并预告Grok 3的到来。
X推出了新的AI图像生成器“Aurora”,能够生成更逼真的图像,且对内容限制较少。用户需订阅X Premium才能在“Grok 2 + Aurora beta”中使用该功能。该模型可以生成版权角色和公众人物的图像,但未生成裸体图像。
LivePortrait 最新版本简化了从单一图像生成动态视频的过程,特别是在眼睛和嘴唇同步方面。用户可以通过上传图片和参考视频,精确控制细节,生成高质量视频。HyperAI 提供了一键启动的开源教程。
Midjourney v6.1发布并获得用户积极反馈。新版本在图像质量、一致性和细节方面进行了升级。最显著的改进是肖像生成几乎完美。然而,在生成大群人时仍存在挑战。总体而言,Midjourney v6.1版本更加逼真,生成更合理的图像。
本文探讨了神经辐射场(NeRF)技术在野外环境中实现机器人的视觉导航和3D视频生成的方法,包括无监督学习生成三维视频、动态场景建模以及高保真模型捕捉与重建。新框架能够从短视频中提取人体细节并生成高质量渲染,展示了在虚拟现实和元宇宙中的应用潜力。
本研究提出了一种名为3R的新型合成方法,能够从白天清晰图像重构夜间模糊图像的场景几何结构,模拟雾霾效果。该方法在合成基准测试中优于现有技术,解决了夜间图像处理中的数据集不足问题。
本文讨论了事实持续时间预测和新的事实评估方法FactKB,旨在提高模型在知识密集型任务中的校准性。研究提出了ClaimDiff数据集,以比较主张差异。测试结果显示,FactKB在跨领域应用中表现优异,增强了错误实体和关系的检测能力。此外,研究还探讨了大型语言模型的事实性问题及改进策略。
该研究提出了一种新的方法,通过零散视频合成人类真实照片。该方法解决了几何、材质和光照问题,能够生成高质量的几何和逼真的阴影。实验证明该方法有效。
本文介绍了一种无监督方法,用于提供训练良好的局部潜在子空间,使得通过潜在编码的导航能够保持生成图像的真实感。
通过使用动物和人类的知识来激发机器人创新,提出了一个框架,使四肢机器人具备像真实动物一样的灵活性和策略。通过利用深度生成模型产生模拟动物行为的运动控制信号,通过预训练感知动物运动的生成模型,将原始知识保留并重复利用于环境适应性学习阶段,最终通过任务特定控制器解决任务,推动了机器人控制的前沿。
本文介绍了一种名为Unsupervised Prototype Adapter (UP-Adapter)的无监督微调方法,利用CLIP的文本-图像对齐能力自动选择每个类别中最有信心的样本,并生成类别原型,用于可学习的原型模型的初始化。经过微调后,通过剩余连接将原型模型的预测与原始CLIP的预测相结合,用于下游识别任务。实验结果表明,该方法在图像识别和领域泛化方面取得了显著优势。
本文提出了一种基于学习的模型,利用少量单目视频帧从移动的人中推断出其个性化的3D形状,重建精度为5mm。该模型学习预测统计体型模型的参数和实例化偏移量,同时加入衣服和头发的形状,具有快速和准确的预测。该模型仅基于合成的3D数据进行学习,可将可变数量的帧作为输入,即使仅有一张图像,也能以6mm的精度重建形状。三个不同数据集的结果表明了本方法的有效性和准确性。
完成下面两步后,将自动完成登录并继续当前操作。