本文讨论了群体相对策略优化(GRPO)及其与策略优化(PO)的关系,重点在于GRPO的优势计算方法。GRPO通过不同的响应来估计优势,简化了传统的价值模型需求。研究表明,优化策略需关注样本长度和优势计算,以提高推理模型的性能。
本文提出了一种名为循环扩散的方法,解决了大规模参数生成的难题。该方法通过将训练参数划分为不重叠部分,利用循环模型学习其关系,从而提高生成效率。研究表明,该方法在多个架构和任务上表现出色,增强了参数生成的实用性。
本研究提出核随机配置网络(KSCNs),有效解决现有随机配置网络在模型学习和性能稳定性方面的不足,显著提升非线性回归问题的学习性能和鲁棒性。
本研究提出了一种新方法,通过RegText框架在自然语言数据集中注入虚假相关性,以遵循数据保护法律,限制新模型对公共数据的学习。
本研究提出HERO框架,通过在线人反馈提高模型学习效率,解决高成本或困难场景中的问题。在体部异常纠正任务中,HERO比现有方法高效4倍,并能以0.5K反馈处理推理、计数和个性化任务。
本研究提出了一种基于扩散的伪装目标检测框架(diffCOD),通过去噪扩散过程和模型学习来分割伪装目标。实验结果表明,该方法在伪装目标的纹理细分割上取得了有利的性能。
通过构建模拟ELIZA程序的Transformer模型,研究了神经对话机器人与可解释的符号机制之间的联系,探讨了模型学习的机制和行为,为对话智能体的机械分析提供了新的场景。
本研究旨在通过软提示个性化文本到图像扩散模型,创造具有足够变化的新实例。解决方案允许模型学习一组软提示,并生成新的图像。研究还展示了提示分布对其他任务的适应性,并证明了方法的有效性。
本文研究了一种模型学习和在线规划方法,以构建灵活、通用的机器人。提出了PDSketch领域定义语言,允许用户定义转换模型的高级结构,并利用神经网络填充细节。PDSketch生成独立于领域的规划启发式,加速了性能时间规划。
本研究探讨了Havrylov和Titov的信令游戏设置对模型学习或捕捉视觉语义的影响。通过增强输入图像和引入附加任务,实现了在完全自监督情况下学习捕捉图像概念属性的视觉表征的通信系统。
本文介绍了一种名为特征增强训练(FAT)的方法,通过保留已经学习到的特征并增加新的特征来强制模型学习所有有用的特征,并在不同子集的训练数据上执行保留和增强操作。实验表明,FAT 有效地学习更丰富的特征并持续改善 OOD 性能。
本文介绍了一种名为特征增强训练(FAT)的方法,通过保留已经学习到的特征并增加新的特征来强制模型学习所有有用的特征,并在不同子集的训练数据上执行保留和增强操作。实验表明,FAT有效地学习更丰富的特征并持续改善OOD性能。
该研究提出了InclusiveFL联邦学习方法,解决了异构设备下的全局模型训练问题,并实现了客户端之间的模型学习和知识迁移。实验表明,该方法在联邦学习框架下具有很好的效果。
该文介绍了一种框架,可以将成对的个体标识为需要(大约)相等的待遇。引入了一种算法,在满足预设的公平性约束条件下学习最准确的模型,并证明了其准确性和公平性的泛化界限。
该文介绍了一个高效的模型学习和规划框架,适用于具有连续状态和动作空间以及非高斯转移模型的随机域。该框架通过估计局部模型来解决规划问题,专注于最相关的状态和最有价值的动作。理论分析证明该方法有效且渐近最优。实验结果表明该算法在模拟的多模式推动问题上表现出了有效性。
本文介绍了一种基于课程学习的掩模自编码器(CL-MAE),通过增加自监督重建任务的复杂性,提高模型学习更复杂和可转移的表示能力。通过在ImageNet数据集上的训练和五个下游任务的实证结果验证了该方法的成功应用。
本研究提出了一种基于扩散的伪装目标检测框架(diffCOD),通过去噪扩散过程和模型学习来检测伪装目标。实验结果表明,该方法在伪装目标的纹理细分割上取得了有利的性能。
本文介绍了一种基于模型学习的鲁棒控制方法,利用鲁棒凸优化和Lyapunov理论定义了鲁棒控制Lyapunov阻碍函数,实现了安全性和稳定性保证的控制器。通过模拟结果展示了该方法在汽车轨迹跟踪、非线性控制中的障碍物避障、卫星交会和飞行控制等问题上的应用,表明该方法降低了计算成本,并且控制器的能力与稳健MPC技术相匹配或优于其能力。
完成下面两步后,将自动完成登录并继续当前操作。