小红花·文摘

本文探讨了基于大型语言模型的自然语言生成（NLG）评估方法，提出了多代理辩论框架和自动化评判系统，以提高评估的可靠性和效率。研究表明，辩论方法能有效提升模型的准确性，并为未来研究提供新思路。