小红花·文摘

该研究探讨了大型语言模型中的社会偏见，发现机器生成文本在多个领域比人类撰写的文本更具偏见。文章提出了新的评测方法和缓解策略，强调跨学科合作以开发更公正的人工智能系统，并分析了偏见的来源及其对模型性能的影响。研究提出的去偏见方法REFINE-LM显示出显著效果。

从列表到表情符号：格式偏见如何影响模型对齐

BriefGPT - AI 论文速递 ·

本文介绍了自然语言处理领域的评测方法和数据集的发展历程，重点介绍了GLUE、SuperGLUE和CUGE这三个评测基准。GLUE和SuperGLUE主要针对英文NLP任务，CUGE填补了中文NLP评测的空白。这些评测基准不仅提供了量化模型性能的方式，还为模型的进一步优化和应用提供了方向。未来将出现更多高质量的评测基准，以满足不断增长的需求和挑战。

演变中的评测：从早期方法到现代基准，AI和NLP评估的多维透视

dotNET跨平台 ·