小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GRACE:一种可解释的逆强化学习语言模型框架

GRACE是一种可解释逆强化学习的语言模型框架,通过专家演示反向工程可解释的奖励函数。该方法结合大型语言模型和进化搜索,生成可执行的代码奖励函数,并在BabyAI和AndroidWorld基准上验证其有效性。GRACE能够在复杂的多任务环境中高效学习准确的奖励,并构建复杂的奖励API。

GRACE:一种可解释的逆强化学习语言模型框架

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z

本研究提出了一种名为IKEA的自适应搜索代理,旨在提高大型语言模型的检索效率。该代理通过内部知识优先和创新的奖励函数,减少外部检索频率,从而提升准确性和推理能力。

Reinforced Internal-External Knowledge Synergistic Reasoning to Enhance the Efficiency of Adaptive Search Agents

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究提出了一种潜在偏好编码(LPC)方法,以解决大型语言模型与人类偏好对齐的问题。LPC超越了传统的奖励函数,能够自动推断数据中的隐性因素。实验结果表明,LPC在多个基准测试中优于现有算法,并增强了对噪声数据的鲁棒性。

潜在偏好编码:通过离散潜在编码对大型语言模型进行对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z
如果人生就是一场强化学习,你的奖励函数是什么?

吴翼在播客中探讨了强化学习与人生的关系,指出人生的奖励函数不明确,需主动探索和试错。他提倡追求多样性和熵值最大化,避免终局思维,保持开放心态,探索个人价值与意义。

如果人生就是一场强化学习,你的奖励函数是什么?

橘子汽水铺
橘子汽水铺 · 2025-05-01T08:17:28Z
埃隆的AGI愿景:CTO对TruthGPT的解读

埃隆·马斯克计划开发一种名为TruthGPT的AI,旨在探索宇宙的本质。该AI不仅是聊天机器人,而是一个追求真理的代理。文章讨论了AI的好奇心、真理的系统约束以及在编写代码前确保对齐的重要性,强调了奖励函数的关键作用。

埃隆的AGI愿景:CTO对TruthGPT的解读

DEV Community
DEV Community · 2025-04-23T23:48:17Z

本研究提出了一种多智能体强化学习框架,旨在优化组织修复过程,结合分子信号建模和生物启发的奖励函数,实验结果表明该框架能够生成有效的修复策略。

Achieving Optimal Tissue Repair through Reward Shaping and Curriculum Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了一种新方法RefAlign,旨在降低大型语言模型对齐中人类偏好数据收集的成本。通过利用样本生成与高质量参考答案的相似性作为奖励函数,显著提高了对齐效率,适用于多种对齐场景,且性能与传统方法相当。

通过参考答案学习:无需二元人类偏好数据的多功能语言模型对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z
UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测

基于规则的强化学习(RL/RFT)显著提升了GUI智能体的动作预测能力。研究团队设计了独特的奖励函数,精选高质量样本,并采用GRPO算法,显著改善了模型在不同平台的表现,验证了数据质量的重要性和强化学习的潜力。

UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测

机器之心
机器之心 · 2025-04-08T10:33:05Z

本研究提出了一种新方法,通过结合轨迹草图和代理性能设计连续控制机器人的奖励函数,有效解决了奖励不匹配和黑客问题。实验结果显示,该方法在多项任务中的成功率达到70-80%,比传统方法提高了20-30%。

VARP: A Method for Reinforcement Learning and Agent Regularization Preferences Based on Visual-Language Model Feedback

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究提出了一种多智能体边际Q学习(MAMQL)框架,旨在解决多智能体场景中的奖励函数误指定问题。MAMQL通过边际化其他智能体的策略,显著提高了平均收益和样本效率,效果优于现有方法2-5倍。

Multi-Agent Demonstration Inverse Q-Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究提出了一种名为ARCHIE的自主强化学习方法,利用GPT-4从自然语言任务描述生成奖励函数,解决复杂人机协作中的奖励函数设计难题。实验结果表明,该方法能够有效将人类可读文本转化为可部署的机器人技能。

Combining Autonomous Reinforcement Learning and Large Language Models for Real-World Robotic Manipulation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究提出了一种新颖的逆强化学习方法,解决了固定奖励分配和隐式奖励正则化的灵活性问题。通过引入平方时间差正则化器和自适应目标动态调整,我们的方法在模仿学习中优化了奖励函数,并结合分布式强化学习,在MuJoCo任务上取得了优异的实验结果。

RIZE:通过分布式强化学习的正则化模仿学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本文讨论了在高级自然语言处理(NLP)中应用强化学习的概念,强调其在处理模型输出与实际任务需求差异方面的优势。介绍了两种奖励函数类型:基于规则的和基于模型的,并探讨了优化这些奖励函数的方法以提升模型性能。最后,列举了人类反馈强化学习(RLF)和数学问题求解模型等实际应用案例,展示了强化学习在NLP中的重要性和潜力。

卡内基梅隆大学高级自然语言处理 2025 春季课程 (11): 强化学习

Josherich的博客
Josherich的博客 · 2025-02-19T00:00:01Z

本研究提出了一种基于视觉语言模型(VLM)的迭代关键点奖励(IKER)方法,旨在解决开放世界环境中的机器人操控任务规范挑战。IKER通过动态优化奖励函数,提高机器人在多步骤操控中的精确性和灵活性,实验证明其在动态环境中的有效性。

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-12T00:00:00Z

清华与CMU团队的研究表明,长思维链(CoT)推理能力可以通过强化学习(RL)实现,监督微调(SFT)并非必需,但能提升效率。研究强调奖励函数对CoT扩展的重要性,并指出模型具备自我纠错能力。未来的研究将集中在模型规模和RL基础设施的改进上。

SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒

量子位
量子位 · 2025-02-09T04:34:45Z

本研究提出了UNIDOOR,一个通用的动作级后门攻击框架,旨在解决深度强化学习中的后门攻击问题。UNIDOOR通过自适应探索后门奖励函数,显著提升了攻击效果,展示了其在多种攻击场景下的优越性能和广泛适用性。

UNIDOOR:深度强化学习中的动作级后门攻击的普遍框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-26T00:00:00Z

本研究提出了一种新的反向强化学习框架SWIRL,解决了传统方法无法捕捉动物历史依赖的问题。该模型结合时间变化和历史依赖的奖励函数,更准确地描述复杂的动物决策过程,并在多个数据集上优于传统模型。

Inverse Reinforcement Learning with Switching Rewards and History Dependency for Characterizing Animal Behaviors

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-22T00:00:00Z

本文提出了一种新方法,解决大语言模型训练中的人类偏好对齐问题。研究者引入“近似克隆鲁棒性”概念,并提出加权最大似然估计算法,以确保在数据不均匀情况下奖励函数的稳定性。

克隆鲁棒的人工智能对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z

本研究提出了“约束作为奖励”(CaR)概念,以解决机器人强化学习中奖励函数设计的复杂性。通过多个约束函数制定任务目标,运用拉格朗日方法成功获取目标行为,从而降低了手动设计奖励函数的难度。

Constraints as Rewards: Reinforcement Learning for Robots without Reward Functions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z

本文探讨了强化学习政策的时间解释,提出了时间策略分解(TPD)方法,通过期望未来结果(EFO)分解价值函数,揭示特定结果发生的时机,从而提升对政策的理解和奖励函数的优化。

通过时间策略分解实现可解释的强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码