AI生成的视频越来越真实,但仍面临“恐怖谷”效应。清华大学与字节跳动推出的HuMo框架,通过多模态输入和渐进式训练,提升视频生成效果,解决声音、表情与动作的协同问题,适合创作者和开发者使用。
Hugging Face发布了mmBERT,这是一种新型多语言编码器,训练于超过3万亿个标记,涵盖1,833种语言。该模型通过渐进式训练,从60种高资源语言扩展到所有语言,显著提升了多语言理解能力,并在多个评估中超越了早期的多语言编码器,展现了高效性与覆盖率的平衡。
InfiGUI-R1引入了一种以推理为中心的渐进式训练方法,将GUI智能体从反应式执行转变为深思熟虑的推理者。该方法包括推理注入和审慎性提升两个阶段,通过空间推理蒸馏和基于规则奖励的强化学习,增强智能体的推理和决策能力,并通过构建错误恢复场景提升反思能力,从而实现更复杂的任务规划和执行。
3DGS在新视角合成领域取得突破,采用量化嵌入和渐进式训练策略,显著降低存储需求和加快训练速度,同时保持重建质量,存储需求减少10-20倍,适用于内存受限场景。
本研究提出了一种名为Loong的自回归模型,解决生成长视频的难题。通过统一建模文本和视频标记,并采用渐进式训练,Loong能有效生成符合文本提示的长视频,从10秒扩展到分钟级,具有创新性和实用性。
本研究提出了一种名为Loong的新型自回归模型,通过将文本和视频标记统一建模,并采用渐进式训练方法,提升了生成长视频的能力。该模型能从10秒视频扩展生成符合文本提示的长视频,具有创新性和实用性。
完成下面两步后,将自动完成登录并继续当前操作。