我们疯了吗?医学问答中语言模型的多智体辩论基准测试 最近针对医疗方面问题回答的大型语言模型 (LLMs) 取得了重要进展,然而确保生成代理提供准确可靠的答案仍然是一个持续挑战。在这个背景下,多代理辩论 (MAD) 作为提高 LLMs... 研究人员在医学问答中使用多代理辩论策略取得了重要进展,并提供了全面基准和开源实现。他们探索了不同策略之间的权衡,并提出了一种新的辩论刺激策略,取得了更好的结果。 医学问答 基准 基准测试 多代理辩论策略 开源实现 语言模型 辩论刺激策略