小红花·文摘

本研究分析了大型语言模型（LLMs）的能力结构，指出其能力可分为推理、理解和核心语言建模三部分。文章综述了LLMs的评估方法，探讨了知识、对齐和安全评估的主要方面，并提出了改进评估机制的建议，以提升LLMs的可靠性和社会利益。