$一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM：用于人形VLA GR00T N1和N1.5中$

结构之法算法之道 ·

一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM：用于人形VLA GR00T N1和N1.5中

💡 原文中文，约9800字，阅读约需24分钟。

📝

内容提要

本文介绍了Eagle 2的设计与训练方法，强调数据的多样性和质量。Eagle 2结合视觉编码器与大语言模型，通过动态拼接和多阶段训练策略提升视觉-语言模型性能。

🎯

🔎

Eagle 2的成功在于其数据策略的多样性和质量。通过涵盖180多个来源的数据池，模型能够更好地理解和处理多模态信息。数据的多样性不仅提升了模型的泛化能力，也为其在不同任务中的表现奠定了基础。

Eagle 2采用了三阶段训练策略，强调后预训练阶段的重要性。这种方法减少了对监督微调数据的依赖，使得模型在处理新数据时更加灵活和高效。通过这种创新的训练方法，Eagle 2能够快速迭代并提升性能。

Eagle 2结合了SigLIP和ConvNeXt作为视觉编码器，并采用图像分块技术以处理高分辨率输入。这种设计不仅提高了模型的感知能力，还在OCR和文档理解等任务中表现出色，展示了视觉编码器在多模态任务中的关键作用。

❓

Eagle 2的设计原则是数据的多样性和质量，强调在整个开发过程中始终遵循“多样性优先，然后是质量”的原则。

Eagle 2通过结合视觉编码器与大语言模型，采用动态拼接和多阶段训练策略来提升视觉-语言模型的性能。

Eagle 2的数据收集策略包括被动收集和主动搜索，确保数据的多样性和质量，涵盖180多个来源。

Eagle 2采用三阶段训练策略，最大化利用训练数据，并强调后预训练阶段的重要性，以减少对SFT数据的依赖。

Eagle 2使用了SigLIP和ConvNeXt作为视觉编码器，并结合图像分块技术处理高分辨率输入。

Eagle 2通过数据过滤和子集选择来确保高质量训练数据，剔除低质量样本并构建高质量子集。

🏷️