我们疯了吗？医学问答中语言模型的多智体辩论基准测试

最近针对医疗方面问题回答的大型语言模型 (LLMs) 取得了重要进展，然而确保生成代理提供准确可靠的答案仍然是一个持续挑战。在这个背景下，多代理辩论 (MAD) 作为提高 LLMs...

研究人员在医学问答中使用多代理辩论策略取得了重要进展，并提供了全面基准和开源实现。他们探索了不同策略之间的权衡，并提出了一种新的辩论刺激策略，取得了更好的结果。

医学问答基准基准测试多代理辩论策略开源实现语言模型辩论刺激策略