小红花·文摘

一项研究探讨了思维链（CoT）训练在大语言模型中的作用，发现其主要提升了提示词动作的质量，而非推理能力。模型在训练中更依赖提示词，导致注意力和梯度集中于提示部分。研究提出了一种干预方法，通过选择性掩盖动作令牌监督，增强模型的域外泛化能力，使其在新任务中表现更佳。

一分钟读论文：《Where Do CoT Training Gains Land in LLM based Agents?》

Micropaper ·

本文综述了大型语言模型（LLMs）中的社会偏见评估与缓解技术，探讨了偏见的概念、评估指标及干预方法。研究表明，LLMs在输出中存在显著偏见，影响其作为评估器的可靠性。通过控制实验，分析了偏见对选择行为的影响，并提出设计无偏LLMs应用的建议。研究强调了偏见的复杂性及其对模型性能的影响，呼吁未来研究关注偏见的缓解策略。

更多即是更多：大型语言模型中的加法偏见

BriefGPT - AI 论文速递 ·

本文综述了大型语言模型中的社会偏见评估与缓解技术，探讨了偏见的概念、评估指标和干预方法。研究表明，模型可能捕捉并传播社会偏见，影响公平性。提出了新的评估方法和框架，强调了公平性在人工智能中的重要性，并展示了GPT-4在准确性和公平性方面的优势。

大型语言模型使用案例中评估偏见和公平性的可执行框架

BriefGPT - AI 论文速递 ·

研讨会强调心理健康危机的严重性及新颖的诊断与治疗方法

MIT News - Artificial intelligence ·

本文综述了大型语言模型中的社会偏见评估与缓解技术，探讨了偏见的概念、评估指标及干预方法。研究表明，流行模型在受保护群体中存在不同程度的偏见，强调了设计对偏见的影响。呼吁对临床决策支持中的模型进行进一步评估与改进，以确保公平与伦理。

评估和缓解大型语言模型中的语言歧视

BriefGPT - AI 论文速递 ·

图神经网络（GNNs）在预测属性图中节点标签的关键人类应用中越来越常见。研究者提出了两种新的干预方法，通过减少受保护群体和非受保护群体之间的可分性以及基于黑盒策略更新模型预测来最小化人口群体之间的误差率差异。实验结果表明，这些干预方法提供了细粒度的控制，并在正确预测受保护群体节点的正向结果时提高了模型的置信度。

赋予预训练图模型可证明的公平性

BriefGPT - AI 论文速递 ·