小红花·文摘

谁在 GPT-5.5 脑子里塞了一群「妖怪」？

爱范儿 ·

RubiCap：基于评分标准的强化学习用于密集图像字幕生成

Apple Machine Learning Research ·

本研究提出了一种无模型的强化学习框架，解决了在处理Omega-正则规范时奖励信号与规范语义不匹配的问题。该方法将绝对活跃规范转化为平均奖励目标，能够在未知的通信马尔可夫决策过程中实现更好的学习效果和收敛性，无需周期重置。

Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives

BriefGPT - AI 论文速递 ·

本研究提出自原则评估调优（SPCT）方法，以提高大语言模型的奖励信号准确性。DeepSeek-GRM模型在奖励建模基准中超越现有方法，推动通用奖励系统的发展。

通用奖励建模的推理时间扩展

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过将沟通问题分解为倾听和发言，利用智能体目标生成奖励信号，提升多智能体环境中的语言模型沟通能力。研究表明，该方法在复杂社交情境中显著提高了讨论质量和赢率。

Training Language Models for Social Reasoning through Multi-Agent Reinforcement Learning

BriefGPT - AI 论文速递 ·

研究发现，追随者可以通过策略性行动操控领导者的奖励信号，使其策略收敛到对自己更有利的均衡状态。研究还提出了最后迭代收敛和样本复杂度方面的结果，并设计了一种新的操控策略，相对于最优应对策略具有内在优势。实证结果支持理论结果。

广义和谐史塔克伯格博弈中的去中心化在线学习

BriefGPT - AI 论文速递 ·

该文介绍了一种名为ARP的高效框架，通过计算视觉观察和自然语言指令之间的相似度作为奖励信号，训练具有多模态奖励标签的返回条件策略，有效减轻目标误泛化。同时，引入了一种用于预训练的多模态编码器的微调方法，进一步增强性能。

自适应多模态奖励引导智能体

BriefGPT - AI 论文速递 ·

该研究介绍了一种名为层次反馈传播 (LFP) 的新型训练方法，利用层次相关传播 (LRP) 为神经网络预测器中的个别连接分配奖励。LFP 在模型中传播奖励信号，增强了接收到积极反馈的结构，减少了接收到负反馈的结构的影响。研究还探讨了将不同的LRP规则扩展到LFP中的方法，以及潜在的应用，例如训练没有有意义的导数的模型或用于转移学习。

分层反馈传播

BriefGPT - AI 论文速递 ·