生数科技于4月10日完成近20亿元B轮融资,致力于构建通用世界模型,实现数字与物理世界的统一。其Vidu系列模型在音视频生成领域处于领先地位,Motus模型则推动具身智能的发展。公司与多家机构合作,推动AI技术创新,力求成为通用智能基础设施的关键构建者。
国产AI Vidu Q3推出全球首个可一次性生成16秒音视频的功能,支持多语言,画面和音效质量高。在国际AI基准测试中排名中国第一、全球第二,展现出强大的叙事能力和细节处理,推动AI视频生成技术进步。
OpenAI于10月1日推出Sora 2音视频生成器及社交应用,用户可生成和分享视频。新功能“客串”允许用户上传形象,增强视频真实感。Sora应用已在美国和加拿大上线,未来计划扩展至其他国家,初期免费,可能在高峰期收费。
本研究提出UniForm统一扩散变换器,旨在解决音视频生成系统模块独立性过强的问题,优化跨模态一致性。实验结果显示其在音视频生成任务中表现优异。
本文介绍了一种基于多模态扩散模型的音视频生成方法,利用耦合自编码器和随机平移注意力块实现音视频帧的生成与对齐。研究表明,该模型在生成质量和对齐性能上优于现有技术,具有良好的应用潜力。
本文介绍了多模态扩散模型在音视频生成、深度图生成和图像编辑等方面的应用,提出了随机平移注意力块、UAMD-Net和IDM-VTON等新方法,以提升多模态数据处理的鲁棒性和生成质量。
本文提出了一种基于转换器的音视频潜在扩散模型,能够在任务不可知的情况下进行音视频生成。通过优化跨模态生成框架和深度生成对抗训练,研究显示在语音质量和生成一致性方面有显著改进,尤其在低信噪比条件下表现优越。
完成下面两步后,将自动完成登录并继续当前操作。