火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架,视频时序理解大模型SOTA!

火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架,视频时序理解大模型SOTA!

实时互动网 实时互动网 ·

视频时序定位是视频理解的关键任务,旨在根据自然语言查询精确定位视频片段。火山引擎与南开大学联合研发的TempSamp-R1框架,通过创新的混合策略采样、非线性优势塑造和混合CoT训练,显著提升了视频时序定位的效率和精度,已在多个数据集上刷新记录,推动智能剪辑技术的发展。

原文中文,约3400字,阅读约需9分钟。
阅读原文