BriefGPT - AI 论文速递 ·

ActFusion：动作分割与预测的统一扩散模型

💡 原文中文，约200字，阅读约需1分钟。

📝

内容提要

本研究提出了ActFusion统一扩散模型，旨在解决视频中动作的时间分割和长期预测问题，最终在标准基准上取得了优异表现。

🎯

关键要点

本研究提出了ActFusion统一扩散模型。
该模型旨在解决视频中动作的时间分割和长期预测问题。
之前这两个任务被分开研究。
ActFusion通过新的预测掩蔽策略处理可见和不可见的序列部分。
模型实现了在这两个任务间的双向互惠。
最终在标准基准上取得了最佳性能，超越了专门针对单一任务的模型。

🏷️

继续阅读

极简方案刷新扩散模型推理纪录，阿里清华论文入选ICML杰出论文
阿里巴巴与清华大学合作的论文《灵活性陷阱》入选ICML杰出论文，质疑扩散语言模型任意顺序生成的价值。研究表明，任意顺序生成会导致推理能力下降，提出的“Ju...
腾讯开源模型混元HY3在OpenRouter限时免费调用有效期至7月21日
腾讯推出的开源模型HY3在OpenRouter平台上可免费调用至2026年7月21日。该模型参数规模为295B，采用MoE架构，支持多种推理模式，适用于编...
Access Advance 已与三星、夏普等 9 家公司签约，加入 VVC 专利池
Access Advance LLC 宣布，夏普等9家专利持有者将于2026年上半年加入视频分发专利池（VDP Pool），涵盖视频解码和流媒体技术。首席...
微软必应搜索遭黑灰产刷关键词联想搜索收款码出现海量垃圾广告联想词
微软必应搜索在用户搜索“收款码”时出现大量垃圾广告联想词，问题源于必应搜索本身，而非用户设备被劫持。尽管搜索引擎通常会反制这种行为，但黑灰产仍然存在，表明...
Y Combinator 加倍投资 Phonely，这家 AI 接待员初创公司完成 2200 万美元 A 轮融资
AI初创公司Phonely在A轮融资中筹集了2200万美元，估值达1亿美元。该公司提供AI驱动的虚拟接待员，能够高效处理客户电话和咨询，已为数千家企业服务...
语音是物理 AI 的关键，开发方法需要跟上
在物理 AI 的发展中，语音识别成为关键能力，机器需要理解语音指令、区分说话者并过滤噪音。远场语音识别在复杂环境中面临挑战，基于物理的声学建模可以提升语音...

内容提要

关键要点

标签

继续阅读