小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在线教程丨多模态协同的视频生成框架HuMo-1.7B,实现图文声一体的视频创作体验

AI生成的视频越来越真实,但仍面临“恐怖谷”效应。清华大学与字节跳动推出的HuMo框架,通过多模态输入和渐进式训练,提升视频生成效果,解决声音、表情与动作的协同问题,适合创作者和开发者使用。

在线教程丨多模态协同的视频生成框架HuMo-1.7B,实现图文声一体的视频创作体验

HyperAI超神经
HyperAI超神经 · 2025-10-23T06:03:47Z
Hugging Face推出mmBERT,一种支持1800多种语言的多语言编码器

Hugging Face发布了mmBERT,这是一种新型多语言编码器,训练于超过3万亿个标记,涵盖1,833种语言。该模型通过渐进式训练,从60种高资源语言扩展到所有语言,显著提升了多语言理解能力,并在多个评估中超越了早期的多语言编码器,展现了高效性与覆盖率的平衡。

Hugging Face推出mmBERT,一种支持1800多种语言的多语言编码器

InfoQ
InfoQ · 2025-09-29T20:10:00Z
InfiGUI-R1:从反应式执行向推理式决策的进阶之路

InfiGUI-R1引入了一种以推理为中心的渐进式训练方法,将GUI智能体从反应式执行转变为深思熟虑的推理者。该方法包括推理注入和审慎性提升两个阶段,通过空间推理蒸馏和基于规则奖励的强化学习,增强智能体的推理和决策能力,并通过构建错误恢复场景提升反思能力,从而实现更复杂的任务规划和执行。

InfiGUI-R1:从反应式执行向推理式决策的进阶之路

NotionNext BLOG
NotionNext BLOG · 2025-04-29T00:00:00Z
EAGLES:轻量级编码的高效加速3D高斯 | ECCV 2024

3DGS在新视角合成领域取得突破,采用量化嵌入和渐进式训练策略,显著降低存储需求和加快训练速度,同时保持重建质量,存储需求减少10-20倍,适用于内存受限场景。

EAGLES:轻量级编码的高效加速3D高斯 | ECCV 2024

实时互动网
实时互动网 · 2025-02-28T06:59:53Z

本研究提出了一种名为Loong的新型自回归模型,通过将文本和视频标记统一建模,并采用渐进式训练方法,提升了生成长视频的能力。该模型能从10秒视频扩展生成符合文本提示的长视频,具有创新性和实用性。

Loong:使用自回归语言模型生成分钟级长视频

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码