小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GRACE:一种可解释的逆强化学习语言模型框架

GRACE是一种可解释逆强化学习的语言模型框架,通过专家演示反向工程可解释的奖励函数。该方法结合大型语言模型和进化搜索,生成可执行的代码奖励函数,并在BabyAI和AndroidWorld基准上验证其有效性。GRACE能够在复杂的多任务环境中高效学习准确的奖励,并构建复杂的奖励API。

GRACE:一种可解释的逆强化学习语言模型框架

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z

本研究提出了一种名为IKEA的自适应搜索代理,旨在提高大型语言模型的检索效率。该代理通过内部知识优先和创新的奖励函数,减少外部检索频率,从而提升准确性和推理能力。

Reinforced Internal-External Knowledge Synergistic Reasoning to Enhance the Efficiency of Adaptive Search Agents

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究提出了一种潜在偏好编码(LPC)方法,以解决大型语言模型与人类偏好对齐的问题。LPC超越了传统的奖励函数,能够自动推断数据中的隐性因素。实验结果表明,LPC在多个基准测试中优于现有算法,并增强了对噪声数据的鲁棒性。

潜在偏好编码:通过离散潜在编码对大型语言模型进行对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z
如果人生就是一场强化学习,你的奖励函数是什么?

吴翼在播客中探讨了强化学习与人生的关系,指出人生的奖励函数不明确,需主动探索和试错。他提倡追求多样性和熵值最大化,避免终局思维,保持开放心态,探索个人价值与意义。

如果人生就是一场强化学习,你的奖励函数是什么?

橘子汽水铺
橘子汽水铺 · 2025-05-01T08:17:28Z
埃隆的AGI愿景:CTO对TruthGPT的解读

埃隆·马斯克计划开发一种名为TruthGPT的AI,旨在探索宇宙的本质。该AI不仅是聊天机器人,而是一个追求真理的代理。文章讨论了AI的好奇心、真理的系统约束以及在编写代码前确保对齐的重要性,强调了奖励函数的关键作用。

埃隆的AGI愿景:CTO对TruthGPT的解读

DEV Community
DEV Community · 2025-04-23T23:48:17Z

本研究提出了一种多智能体强化学习框架,旨在优化组织修复过程,结合分子信号建模和生物启发的奖励函数,实验结果表明该框架能够生成有效的修复策略。

Achieving Optimal Tissue Repair through Reward Shaping and Curriculum Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了一种新方法RefAlign,旨在降低大型语言模型对齐中人类偏好数据收集的成本。通过利用样本生成与高质量参考答案的相似性作为奖励函数,显著提高了对齐效率,适用于多种对齐场景,且性能与传统方法相当。

通过参考答案学习:无需二元人类偏好数据的多功能语言模型对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z
UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测

基于规则的强化学习(RL/RFT)显著提升了GUI智能体的动作预测能力。研究团队设计了独特的奖励函数,精选高质量样本,并采用GRPO算法,显著改善了模型在不同平台的表现,验证了数据质量的重要性和强化学习的潜力。

UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测

机器之心
机器之心 · 2025-04-08T10:33:05Z

本研究提出了一种新方法,通过结合轨迹草图和代理性能设计连续控制机器人的奖励函数,有效解决了奖励不匹配和黑客问题。实验结果显示,该方法在多项任务中的成功率达到70-80%,比传统方法提高了20-30%。

VARP: A Method for Reinforcement Learning and Agent Regularization Preferences Based on Visual-Language Model Feedback

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究提出了一种多智能体边际Q学习(MAMQL)框架,旨在解决多智能体场景中的奖励函数误指定问题。MAMQL通过边际化其他智能体的策略,显著提高了平均收益和样本效率,效果优于现有方法2-5倍。

Multi-Agent Demonstration Inverse Q-Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究提出了一种名为ARCHIE的自主强化学习方法,利用GPT-4从自然语言任务描述生成奖励函数,解决复杂人机协作中的奖励函数设计难题。实验结果表明,该方法能够有效将人类可读文本转化为可部署的机器人技能。

Combining Autonomous Reinforcement Learning and Large Language Models for Real-World Robotic Manipulation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究提出了一种新颖的逆强化学习方法,解决了固定奖励分配和隐式奖励正则化的灵活性问题。通过引入平方时间差正则化器和自适应目标动态调整,我们的方法在模仿学习中优化了奖励函数,并结合分布式强化学习,在MuJoCo任务上取得了优异的实验结果。

RIZE:通过分布式强化学习的正则化模仿学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本文讨论了在高级自然语言处理(NLP)中应用强化学习的概念,强调其在处理模型输出与实际任务需求差异方面的优势。介绍了两种奖励函数类型:基于规则的和基于模型的,并探讨了优化这些奖励函数的方法以提升模型性能。最后,列举了人类反馈强化学习(RLF)和数学问题求解模型等实际应用案例,展示了强化学习在NLP中的重要性和潜力。

卡内基梅隆大学高级自然语言处理 2025 春季课程 (11): 强化学习

Josherich的博客
Josherich的博客 · 2025-02-19T00:00:01Z

本研究提出了一种基于视觉语言模型(VLM)的迭代关键点奖励(IKER)方法,旨在解决开放世界环境中的机器人操控任务规范挑战。IKER通过动态优化奖励函数,提高机器人在多步骤操控中的精确性和灵活性,实验证明其在动态环境中的有效性。

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-12T00:00:00Z

清华与CMU团队的研究表明,长思维链(CoT)推理能力可以通过强化学习(RL)实现,监督微调(SFT)并非必需,但能提升效率。研究强调奖励函数对CoT扩展的重要性,并指出模型具备自我纠错能力。未来的研究将集中在模型规模和RL基础设施的改进上。

SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒

量子位
量子位 · 2025-02-09T04:34:45Z

本研究提出了UNIDOOR,一个通用的动作级后门攻击框架,旨在解决深度强化学习中的后门攻击问题。UNIDOOR通过自适应探索后门奖励函数,显著提升了攻击效果,展示了其在多种攻击场景下的优越性能和广泛适用性。

UNIDOOR:深度强化学习中的动作级后门攻击的普遍框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-26T00:00:00Z

本研究提出了一种新的反向强化学习框架SWIRL,解决了传统方法无法捕捉动物历史依赖的问题。该模型结合时间变化和历史依赖的奖励函数,更准确地描述复杂的动物决策过程,并在多个数据集上优于传统模型。

Inverse Reinforcement Learning with Switching Rewards and History Dependency for Characterizing Animal Behaviors

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-22T00:00:00Z

本文提出了一种新方法,解决大语言模型训练中的人类偏好对齐问题。研究者引入“近似克隆鲁棒性”概念,并提出加权最大似然估计算法,以确保在数据不均匀情况下奖励函数的稳定性。

克隆鲁棒的人工智能对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z

本研究提出了“约束作为奖励”(CaR)概念,以解决机器人强化学习中奖励函数设计的复杂性。通过多个约束函数制定任务目标,运用拉格朗日方法成功获取目标行为,从而降低了手动设计奖励函数的难度。

Constraints as Rewards: Reinforcement Learning for Robots without Reward Functions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z

本文探讨了强化学习政策的时间解释,提出了时间策略分解(TPD)方法,通过期望未来结果(EFO)分解价值函数,揭示特定结果发生的时机,从而提升对政策的理解和奖励函数的优化。

通过时间策略分解实现可解释的强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码