NVIDIA AI 推出通用视觉语言模型 Eagle 2.5,仅用 8B 参数就能在视频任务中与 GPT-4o 匹配

近年来,视觉语言模型 (VLM) 在连接图像、视频和文本模态方面取得了显著进展。然而,一个持续存在的限制依然存在:无法有效处理长上下文多模态数据,例如高分辨率图像或扩展视频序列。许...

Eagle 2.5 是 NVIDIA 推出的视觉语言模型,专为处理长上下文的多模态数据而设计。它通过信息优先采样和渐进式后训练策略,显著提升了视频和图像理解任务的性能,尤其在高分辨率输入下表现突出。该模型强调上下文完整性和数据集多样性,是多模态理解的重要工具。

NVIDIA AI 推出通用视觉语言模型 Eagle 2.5,仅用 8B 参数就能在视频任务中与 GPT-4o 匹配
原文中文,约2000字,阅读约需5分钟。发表于:
阅读原文