小红花·文摘

本文探讨自然语言生成（NLG）的评估方法，分析自动指标的应用与验证，提出最佳实践和未来研究方向。研究表明，现有评估方法存在缺陷，建议采用层次化评估框架和新的评估协议，以提高评估的可靠性和有效性。