$GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5：教你如何逐步微调GR00T(含在宇树G1上的真机部署)$

结构之法算法之道 ·

GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5：教你如何逐步微调GR00T(含在宇树G1上的真机部署)

💡 原文中文，约22700字，阅读约需54分钟。

📝

内容提要

本文介绍了英伟达GR00T N1.5的升级与应用，强调其在机器人语言理解和视觉处理方面的显著提升。N1.5通过Eagle-2模型增强了文本和视觉的编码能力，提高了任务执行的准确性和效率。文章还分享了在长沙举办的线下营中，团队如何解决部署过程中的问题，并展示了N1.5在实际操作中的应用案例，如纸巾抓取。

🎯

关键要点

英伟达于25年6月11日推出了GR00T N1.5，显著提升了机器人语言理解和视觉处理能力。
N1.5通过Eagle-2模型增强了文本和视觉的编码能力，提高了任务执行的准确性和效率。
在长沙举办的线下营中，团队解决了部署过程中的问题，并展示了N1.5在纸巾抓取等实际操作中的应用案例。
N1.5在语言指令遵循能力上从46.6%提升至93.3%，在低数据量场景下表现更优。
N1.5的改进包括增强的视觉语言模型定位能力和对新物体的泛化能力，使其在复杂任务中表现出色。

🔎

延伸解读

GR00T N1.5的技术优势

GR00T N1.5在语言理解和视觉处理方面的显著提升，使其在复杂任务中表现出色。通过Eagle-2模型的升级，N1.5的语言指令遵循能力从46.6%提升至93.3%，在低数据量场景下表现尤为优越。这一改进使得N1.5在实际应用中更具竞争力，尤其是在需要高精度和高效率的机器人任务中。

部署过程中的挑战

在将GR00T N1.5部署到宇树G1的过程中，团队遇到了多种技术挑战，包括数据维度不一致和FFmpeg版本不兼容等问题。这些问题的解决需要对现有代码进行调整和优化，强调了在实际应用中，技术细节和环境配置的重要性。

未来的应用前景

GR00T N1.5的改进不仅提升了机器人在语言和视觉任务中的表现，还为未来的机器人学习和应用开辟了新的可能性。通过引入FLARE和DreamGen等技术，N1.5能够从无标注数据中学习，展现出更强的泛化能力，预示着在多样化场景中的广泛应用潜力。

❓

延伸问答

GR00T N1.5的主要改进是什么？

GR00T N1.5通过Eagle-2模型显著提升了机器人语言理解和视觉处理能力，语言指令遵循能力从46.6%提升至93.3%。

GR00T N1.5在实际应用中有哪些案例？

在长沙的线下营中，GR00T N1.5成功演示了纸巾抓取等实际操作案例。

如何微调GR00T N1.5以适应特定任务？

用户需将演示数据转换为LeRobot兼容的数据模式，并使用提供的脚本在用户数据上微调预训练的GR00T N1.5模型。

GR00T N1.5的视觉语言模型有什么特点？

GR00T N1.5的视觉语言模型在预训练和微调期间被冻结，增强了对新物体的泛化能力和定位能力。

GR00T N1.5在低数据量场景下的表现如何？

GR00T N1.5在低数据量场景下表现优异，尤其在零样本和少样本情况下，任务执行的准确性和效率更高。

GR00T N1.5的部署过程中遇到了哪些问题？

在部署GR00T N1.5时，团队遇到了数据维度不一致和FFmpeg版本不兼容等问题。

🏷️