任务问我
原文中文,约500字,阅读约需2分钟。发表于: 。Task-Me-Anything 是一个针对大型多模式语言模型(MLMs)的基准生成引擎,它可以根据用户需求生成定制化的基准,并通过在计算预算内高效地算法地解决用户对 MLM 性能的查询。它包含 113K 图像、10K 视频、2K 3D 物体资源、365 多个物体类别、655 个属性和 335 个关系,可以生成 750M 图像 / 视频问答对,重点评估 MLM 的感知能力。研究发现:开源的...
最近,研究人员引入了TaskBench来评估语言模型在任务自动化中的能力。TaskBench通过任务分解、工具调用和参数预测等方面评估语言模型的能力。实验结果表明,TaskBench能够有效地反映语言模型在任务自动化中的能力,可作为自主代理的可靠基准。