小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在线教程丨多模态协同的视频生成框架HuMo-1.7B,实现图文声一体的视频创作体验

AI生成的视频越来越真实,但仍面临“恐怖谷”效应。清华大学与字节跳动推出的HuMo框架,通过多模态输入和渐进式训练,提升视频生成效果,解决声音、表情与动作的协同问题,适合创作者和开发者使用。

在线教程丨多模态协同的视频生成框架HuMo-1.7B,实现图文声一体的视频创作体验

HyperAI超神经
HyperAI超神经 · 2025-10-23T06:03:47Z
Hugging Face推出mmBERT,一种支持1800多种语言的多语言编码器

Hugging Face发布了mmBERT,这是一种新型多语言编码器,训练于超过3万亿个标记,涵盖1,833种语言。该模型通过渐进式训练,从60种高资源语言扩展到所有语言,显著提升了多语言理解能力,并在多个评估中超越了早期的多语言编码器,展现了高效性与覆盖率的平衡。

Hugging Face推出mmBERT,一种支持1800多种语言的多语言编码器

InfoQ
InfoQ · 2025-09-29T20:10:00Z
InfiGUI-R1:从反应式执行向推理式决策的进阶之路

InfiGUI-R1引入了一种以推理为中心的渐进式训练方法,将GUI智能体从反应式执行转变为深思熟虑的推理者。该方法包括推理注入和审慎性提升两个阶段,通过空间推理蒸馏和基于规则奖励的强化学习,增强智能体的推理和决策能力,并通过构建错误恢复场景提升反思能力,从而实现更复杂的任务规划和执行。

InfiGUI-R1:从反应式执行向推理式决策的进阶之路

NotionNext BLOG
NotionNext BLOG · 2025-04-29T00:00:00Z
EAGLES:轻量级编码的高效加速3D高斯 | ECCV 2024

3DGS在新视角合成领域取得突破,采用量化嵌入和渐进式训练策略,显著降低存储需求和加快训练速度,同时保持重建质量,存储需求减少10-20倍,适用于内存受限场景。

EAGLES:轻量级编码的高效加速3D高斯 | ECCV 2024

实时互动网
实时互动网 · 2025-02-28T06:59:53Z

本研究提出了一种名为Loong的自回归模型,解决生成长视频的难题。通过统一建模文本和视频标记,并采用渐进式训练,Loong能有效生成符合文本提示的长视频,从10秒扩展到分钟级,具有创新性和实用性。

LVD-2M:带有时间密集字幕的长视频数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-14T00:00:00Z

本研究提出了一种名为Loong的新型自回归模型,通过将文本和视频标记统一建模,并采用渐进式训练方法,提升了生成长视频的能力。该模型能从10秒视频扩展生成符合文本提示的长视频,具有创新性和实用性。

Loong:使用自回归语言模型生成分钟级长视频

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码