NVIDIA AI 推出通用视觉语言模型 Eagle 2.5，仅用 8B 参数就能在视频任务中与 GPT-4o 匹配

近年来，视觉语言模型 (VLM) 在连接图像、视频和文本模态方面取得了显著进展。然而，一个持续存在的限制依然存在：无法有效处理长上下文多模态数据，例如高分辨率图像或扩展视频序列。许...

Eagle 2.5 是 NVIDIA 推出的视觉语言模型，专为处理长上下文的多模态数据而设计。它通过信息优先采样和渐进式后训练策略，显著提升了视频和图像理解任务的性能，尤其在高分辨率输入下表现突出。该模型强调上下文完整性和数据集多样性，是多模态理解的重要工具。

Eagle 2.5 NVIDIA ai gpt 图像理解多模态数据视觉语言模型语言模型