小红花·文摘

本文介绍了一种新的评估基准BioKGBench，用于评估大型语言模型驱动的副驾驶代理系统。研究发现当前最先进的代理系统在该基准测试中表现不佳。研究还提出了一个简单而有效的基准系统BKGAgent，并在知识图上发现了90多个事实错误。