国家数据局发布了2025年可信数据空间创新发展试点名单,共63个项目,涵盖城市、行业和企业数据空间。试点强调过程管理,入选单位需接受动态评估,以确保数据空间建设的活力与有效性。未来将扩展个人和跨境数据空间。
本研究提出了KORGym,一个灵活的动态评估平台,旨在解决大型语言模型推理评估的局限性。通过对19个大型语言模型和8个视觉语言模型的实验,发现闭源模型表现更优,预计将推动语言模型推理研究的发展。
本研究评估了开放语义映射(OSM)在不同光照条件下的表现,提出了动态评估管道OSMa-Bench,并引入新数据集,分析最新算法的性能,为未来机器人系统开发提供重要见解。
本研究提出了GameArena,通过与人类互动游戏动态评估大型语言模型(LLMs)的推理能力,克服了现有基准的局限性,并收集了2000多个游戏会话的数据。
本研究提出了一种自适应图文质量增强模型(AITQE),用于提升多模态大语言模型训练中的图文配对质量。通过动态评估、文本重写和负样本学习策略,提高了数据利用率和扩展性,并在基准测试中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。