本研究构建了一个评估大规模语言模型指令遵循能力的框架,制定了评估标准和过程,创建了包含多难度和领域的测试集,并探讨了自动化评估的可能性,为英中语言模型人类对齐性评估提供了标准化方法。
完成下面两步后,将自动完成登录并继续当前操作。