研究人员揭示AI代理基准测试中的缺陷
原文英文,约1200词,阅读约需5分钟。发表于: 。As agents using artificial intelligence have wormed their way into the mainstream for everything from customer service to fixing software code, it’s increasingly important to determine which are...
一项新的研究发现,当前的AI代理评估和基准测试存在缺陷,阻碍了其在实际应用中的有效性。研究人员提出了解决这些问题的方法,认为需要重新思考基准测试的做法。AI代理评估需要控制成本,联合优化准确性和成本可以获得更好的代理设计。模型开发者和下游开发者有不同的基准测试需求,代理基准测试可以提供捷径,但代理评估缺乏标准化和可重复性。尽管如此,公司仍然希望在应用中使用代理。