英伟达机器人主管Jim Fan表示,机器人领域仍处于初级阶段,硬件进步快于软件,缺乏统一评测标准。尽管VLA模型受到关注,但与物理操作不一致,未来需整合物理世界模型。同时,数据和硬件的可靠性也至关重要,行业需提升评测标准和数据利用效率。
美团LongCat团队推出AMO-Bench,包含50道高难度原创数学推理题,旨在提升大模型的推理能力。目前顶尖模型在该评测中的表现仍未及格,显示出其在复杂推理任务上的局限性。AMO-Bench为行业提供了新的评测标准,未来将持续更新。
上海交通大学洪亮教授团队推出了VenusMutHub,这是首个针对真实应用场景的蛋白质突变小样本数据集,并提出了评测标准。该研究克服了现有高通量数据集的局限性,为蛋白质工程提供实用指导,推动了蛋白质功能预测的发展。
在人工智能快速发展的背景下,神经形态计算面临评测标准缺乏的问题。哈佛大学等机构提出了NeuroBench框架,通过算法与系统的双轨评测,为该领域提供统一的评估标准,促进技术创新与比较,推动神经形态计算的健康发展。
完成下面两步后,将自动完成登录并继续当前操作。