本文介绍了一种新的评估基准BioKGBench,用于评估大型语言模型驱动的副驾驶代理系统。研究发现当前最先进的代理系统在该基准测试中表现不佳。研究还提出了一个简单而有效的基准系统BKGAgent,并在知识图上发现了90多个事实错误。
完成下面两步后,将自动完成登录并继续当前操作。