小红花·文摘 - 小红花技术领袖俱乐部

本文提出了一种新方法Reinforce-Rej，旨在解决大语言模型在复杂推理任务中的适应性不足问题。通过样本筛选，该方法提高了KL效率和稳定性，为基于奖励的后期训练提供了有效的替代方案。

A Simplified Approach to Inference in Large Language Models: From Rejection Sampling to Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究探讨了数据质量对大语言模型后期训练的影响。通过层级梯度分析，发现高质量数据与低核范数和高有效秩相关，推理数据在复杂任务中表现出更高的有效秩，揭示了数据质量与训练稳定性之间的关系。

指令和推理数据如何塑造后期训练：通过层级梯度透视数据质量

BriefGPT - AI 论文速递 ·

Imbue首席执行官Kanjun Qiu分享如何构建更智能AI代理的见解

Imbue首席执行官Kanjun Qiu分享如何构建更智能AI代理的见解

NVIDIA Blog ·

本研究探讨了基于骨骼的人类活动识别（S-HAR）的敌对可转移性，并通过平滑损失函数景观和后期训练的双贝叶斯策略成功提高了S-HAR的敌对可转移性。评估结果显示，传递成功率分别为35.9％和45.5％，高于现有攻击方法。研究还提供了关于替代模型可转移性的见解。

通过探索模型后验空间来增强基于骨骼的动作识别中的对抗迁移能力

BriefGPT - AI 论文速递 ·