小米云技术 ·

5亿视频炼出全球最大 GUI 开源数据集、推理 Token 省71%小模型反超大模型——小米 AI 团队多篇论文入选 ICML 2026

💡 原文中文，约8800字，阅读约需21分钟。

📝

内容提要

小米AI团队在ICML 2026上展示了11篇研究成果，涵盖GUI Agent、推理增强和多模态理解等领域。他们从5亿条视频中提炼数据，构建了全球最大开源GUI操作数据集，显著提升了模型的准确率，并探讨了模型训练的稳定性和推理能力，推动AI技术的实际应用，展现了小米在AI研发的长期投入与成果。

🎯

关键要点

小米AI团队在ICML 2026上展示了11篇研究成果，涵盖GUI Agent、推理增强和多模态理解等领域。
从5亿条视频中提炼数据，构建了全球最大开源GUI操作数据集，显著提升了模型的准确率。
研究成果包括MoE训练稳定性、推理增强和多模态理解等技术，推动AI技术的实际应用。
GUI Agent的研究旨在推动其从实验室应用到真实场景，解决数据标注和模型训练的瓶颈。
通过Video2GUI项目，构建了规模最大的开源GUI预训练数据集，包含1270万条轨迹和1.245亿张截图。
HyperTrack项目构建了中文移动GUI导航数据集，提出了统一评测工具包GUIEvalKit，提升了模型评测的标准化。
CoME项目提出了多专家推理架构，提升了GUI Agent的推理效率和稳定性。
LED项目通过恢复推理模型的探索能力，提升了模型在开放性问题上的表现。
VeriTime项目构建了时序推理数据集，提升了小模型在时序推理任务上的能力。
Visual Para-Thinker和Video-OPD项目分别提升了视觉理解和视频时序定位的能力。
GAD项目通过对齐响应恢复了蒸馏模型的多样性，提升了图像生成的能力。
MECAT项目构建了音频理解的高质量标注数据集，提升了音频理解的准确性。
R3项目提升了MoE模型的训练稳定性，解决了训练与推理不一致的问题。
SPARK项目提出了结构化编辑范式，提升了神经架构搜索的效率和准确性。

🔎

延伸解读

小米AI团队的长期投入

小米AI团队在ICML 2026上展示的研究成果，体现了其在AI技术研发上的长期投入与持续创新。这些研究不仅是学术论文，更是推动AI技术实际应用的基础，展示了小米在行业中的竞争力和前瞻性。

数据集的规模与价值

小米团队从5亿条视频中提炼出的全球最大开源GUI操作数据集，具有重要的实用价值。该数据集不仅提升了模型的准确率，还为未来的AI训练提供了丰富的数据基础，降低了人工标注的成本，推动了AI技术的普及。

推理能力的提升

小米的研究成果中，推理能力的增强是一个关键点。通过多专家推理架构和时序推理数据集的构建，小米的AI模型在处理复杂任务时表现出更高的效率和稳定性，这为实际应用中的智能决策提供了更强的支持。

多模态理解的前景

小米在多模态理解方面的研究，尤其是在视觉和音频理解上，展示了AI技术的广泛应用潜力。这些技术的进步将直接影响到用户体验，提升智能设备在日常生活中的实用性和智能化水平。

❓

延伸问答

小米AI团队在ICML 2026上展示了哪些研究成果？

小米AI团队在ICML 2026上展示了11篇研究成果，涵盖GUI Agent、推理增强和多模态理解等领域。

Video2GUI项目的核心价值是什么？

Video2GUI项目的核心价值在于提供了一套可大规模提炼GUI操作知识的数据生产配方，无需人工标注，数据规模理论上等于互联网上所有GUI教学内容的总和。

HyperTrack项目的主要贡献是什么？

HyperTrack项目构建了规模最大的中文移动GUI导航数据集，提出了统一评测工具包GUIEvalKit，提升了模型评测的标准化。

CoME项目如何提升GUI Agent的推理效率？

CoME项目通过提出多专家推理架构，将推理过程划分为多个阶段，并为每个阶段配置专门专家，从而提升了推理效率和稳定性。

LED项目解决了什么问题？

LED项目通过恢复推理模型的探索能力，解决了强化学习训练后模型丧失多样性的问题，提升了模型在开放性问题上的表现。

MECAT项目的目标是什么？

MECAT项目旨在构建音频理解的高质量标注数据集，提升音频理解的准确性。

🏷️