5亿视频炼出全球最大 GUI 开源数据集、推理 Token 省71%小模型反超大模型——小米 AI 团队多篇论文入选 ICML 2026

5亿视频炼出全球最大 GUI 开源数据集、推理 Token 省71%小模型反超大模型——小米 AI 团队多篇论文入选 ICML 2026

💡 原文中文,约8800字,阅读约需21分钟。
📝

内容提要

小米AI团队在ICML 2026上展示了11篇研究成果,涵盖GUI Agent、推理增强和多模态理解等领域。他们从5亿条视频中提炼数据,构建了全球最大开源GUI操作数据集,显著提升了模型的准确率,并探讨了模型训练的稳定性和推理能力,推动AI技术的实际应用,展现了小米在AI研发的长期投入与成果。

🎯

关键要点

  • 小米AI团队在ICML 2026上展示了11篇研究成果,涵盖GUI Agent、推理增强和多模态理解等领域。

  • 从5亿条视频中提炼数据,构建了全球最大开源GUI操作数据集,显著提升了模型的准确率。

  • 研究成果包括MoE训练稳定性、推理增强和多模态理解等技术,推动AI技术的实际应用。

  • GUI Agent的研究旨在推动其从实验室应用到真实场景,解决数据标注和模型训练的瓶颈。

  • 通过Video2GUI项目,构建了规模最大的开源GUI预训练数据集,包含1270万条轨迹和1.245亿张截图。

  • HyperTrack项目构建了中文移动GUI导航数据集,提出了统一评测工具包GUIEvalKit,提升了模型评测的标准化。

  • CoME项目提出了多专家推理架构,提升了GUI Agent的推理效率和稳定性。

  • LED项目通过恢复推理模型的探索能力,提升了模型在开放性问题上的表现。

  • VeriTime项目构建了时序推理数据集,提升了小模型在时序推理任务上的能力。

  • Visual Para-Thinker和Video-OPD项目分别提升了视觉理解和视频时序定位的能力。

  • GAD项目通过对齐响应恢复了蒸馏模型的多样性,提升了图像生成的能力。

  • MECAT项目构建了音频理解的高质量标注数据集,提升了音频理解的准确性。

  • R3项目提升了MoE模型的训练稳定性,解决了训练与推理不一致的问题。

  • SPARK项目提出了结构化编辑范式,提升了神经架构搜索的效率和准确性。

🔎

延伸解读

小米AI团队的长期投入

小米AI团队在ICML 2026上展示的研究成果,体现了其在AI技术研发上的长期投入与持续创新。这些研究不仅是学术论文,更是推动AI技术实际应用的基础,展示了小米在行业中的竞争力和前瞻性。

数据集的规模与价值

小米团队从5亿条视频中提炼出的全球最大开源GUI操作数据集,具有重要的实用价值。该数据集不仅提升了模型的准确率,还为未来的AI训练提供了丰富的数据基础,降低了人工标注的成本,推动了AI技术的普及。

推理能力的提升

小米的研究成果中,推理能力的增强是一个关键点。通过多专家推理架构和时序推理数据集的构建,小米的AI模型在处理复杂任务时表现出更高的效率和稳定性,这为实际应用中的智能决策提供了更强的支持。

多模态理解的前景

小米在多模态理解方面的研究,尤其是在视觉和音频理解上,展示了AI技术的广泛应用潜力。这些技术的进步将直接影响到用户体验,提升智能设备在日常生活中的实用性和智能化水平。

延伸问答

小米AI团队在ICML 2026上展示了哪些研究成果?

小米AI团队在ICML 2026上展示了11篇研究成果,涵盖GUI Agent、推理增强和多模态理解等领域。

Video2GUI项目的核心价值是什么?

Video2GUI项目的核心价值在于提供了一套可大规模提炼GUI操作知识的数据生产配方,无需人工标注,数据规模理论上等于互联网上所有GUI教学内容的总和。

HyperTrack项目的主要贡献是什么?

HyperTrack项目构建了规模最大的中文移动GUI导航数据集,提出了统一评测工具包GUIEvalKit,提升了模型评测的标准化。

CoME项目如何提升GUI Agent的推理效率?

CoME项目通过提出多专家推理架构,将推理过程划分为多个阶段,并为每个阶段配置专门专家,从而提升了推理效率和稳定性。

LED项目解决了什么问题?

LED项目通过恢复推理模型的探索能力,解决了强化学习训练后模型丧失多样性的问题,提升了模型在开放性问题上的表现。

MECAT项目的目标是什么?

MECAT项目旨在构建音频理解的高质量标注数据集,提升音频理解的准确性。

🏷️

标签

➡️

继续阅读