小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了大型语言模型（LLM）评估方法的滞后问题，提出了LLM心理测量学这一新领域，旨在通过心理测量工具提升LLM的评估，促进人本中心AI系统的社会利益实现。

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）的评估方法，强调统一评估体系的重要性。研究表明，零样本LLM在电信领域表现优异。文章总结了LLM的核心能力，并提出未来评估方向的建议，以促进负责任的发展和最大化社会利益。

TEL'M: 语言模型的测试和评估

BriefGPT - AI 论文速递 ·

人工智能责任涉及降低风险、改善生活和应对挑战。准确性、隐私、公平性和透明度等社会价值观应被纳入其中。找到正确的平衡是复杂的。我们公司在2018年发布了人工智能原则，强调社会利益。

负责任的人工智能进展的共同议程

The Keyword ·