小红花·文摘 - 小红花技术领袖俱乐部

英伟达机器人主管Jim Fan表示，机器人领域仍处于初级阶段，硬件进步快于软件，缺乏统一评测标准。尽管VLA模型受到关注，但与物理操作不一致，未来需整合物理世界模型。同时，数据和硬件的可靠性也至关重要，行业需提升评测标准和数据利用效率。

具身智能机器人年度总结，来自英伟达机器人主管

量子位 ·

美团 LongCat 发布 AMO-Bench：突破 AIME 评测饱和困境，重新定义 LLM 数学上限

美团 LongCat 发布 AMO-Bench：突破 AIME 评测饱和困境，重新定义 LLM 数学上限

美团技术团队 ·

上海交通大学洪亮教授团队推出了VenusMutHub，这是首个针对真实应用场景的蛋白质突变小样本数据集，并提出了评测标准。该研究克服了现有高通量数据集的局限性，为蛋白质工程提供实用指导，推动了蛋白质功能预测的发展。

蛋白质突变工程 AI 模型评测新基准，上海交大洪亮教授团队发布 VenusMutHub

HyperAI超神经 ·

哈佛、英特尔等60+顶尖机构联手打造：NeuroBench定义神经形态计算评测新范式

哈佛、英特尔等60+顶尖机构联手打造：NeuroBench定义神经形态计算评测新范式

机器之心 ·