在2025年QCon AI NYC大会上,OpenAI的Will Hang介绍了Agent RFT,这是一种强化微调方法,旨在提升工具使用代理的性能。他强调了优化提示和任务的重要性,并提出了监督微调和偏好优化等多种微调选项。Hang指出,强化微调适合需要探索策略的任务,并强调了在整个轨迹中进行信用分配的重要性。Zi展示了实际应用案例,强调了在工具调用预算下的有效内容定位。
本研究探讨了过程奖励模型(PRM)在强化微调中的奖励黑客问题,提出了PURE方法,通过最小化信用分配来减轻奖励黑客现象。实验证明,该方法的推理表现与传统方法相当,并降低了训练失败的风险。
本研究提出了一种新算法QLLM,旨在解决多智能体强化学习中的信用分配问题,显著提升了表达能力和准确性,优于现有技术。
本研究提出了一种新框架——误差广播与去相关(EBD)算法,旨在解决神经网络中的信用分配问题。EBD通过定义分层损失函数,惩罚层激活与输出误差的相关性,实验结果表明其性能优于现有方法,并具备生物学合理性。
本研究探讨了通信在机器人群体协调中的作用,解决了去中心化过程中的信用分配问题,并提出了通信分类法,强调信息选择和物理抽象的重要性。
本研究探讨生物奖励学习中的信用分配,重点分析多巴胺如何编码时间差误差以学习价值预测。提出的新深度Q学习算法“人工多巴胺”在多个测试平台上表现出与反向传播算法相当的性能。
深度强化学习中的问题包括奖励稀疏性、信用分配和错位。为了解决这些问题,引入了连续概念瓶颈代理(SCoBots),通过整合连续的概念瓶颈层使决策过程透明化,领域专家能够理解和纠正模型的错误行为。SCoBots在Pong等游戏中应用,帮助解决了错位问题。
研究发现神经元尖峰机制可用于估计因果效应和解决信用分配问题。阈值反应可获得神经元对奖励信号的独特贡献,为探索新功能提供见解。
完成下面两步后,将自动完成登录并继续当前操作。