小红花·文摘

本研究构建了一个评估大规模语言模型指令遵循能力的框架，制定了评估标准和过程，创建了包含多难度和领域的测试集，并探讨了自动化评估的可能性，为英中语言模型人类对齐性评估提供了标准化方法。