小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

该模型通过生成多个候选解并选择高质量解进行扩展,优化了传统深度学习模型的准确性。引入过程奖励设计,确保初期关键token获得合理奖励,从而提升整体准确率。

【纯干货】三张图深入分析京东开源Genie的8大亮点

京东科技开发者
京东科技开发者 · 2025-07-27T03:25:27Z

本研究提出了一种基于大型语言模型的自动化奖励设计框架,旨在解决复杂编队协调中的奖励函数设计问题。实验结果表明,该框架生成的奖励函数在多个场景下性能提升了10%。

基于大型语言模型的自动化强化学习奖励设计框架用于协作编队协调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究提出了一种新颖的启发式框架,通过历史探索数据和手动任务描述,优化大型语言模型的奖励设计。实验结果表明,该框架在强化学习任务中表现出有效性和稳定性,具有实际应用潜力。

通过启发式奖励观察空间演化增强通用大型语言模型奖励设计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究针对类人机器人灵巧操作中的强化学习挑战,提出了自动调节模块、简化奖励设计、样本效率提升的蒸馏过程及对象表示方法等创新技术,结果在三个任务中表现优异。

基于视觉的类人机器人灵巧操作的仿真到现实强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z
早期 PS4 模拟器:跨平台游戏体验 | 开源日报 No.474

shadPS4 是一款跨平台的 PlayStation 4 模拟器,支持多款游戏。nativelink 是高性能的构建缓存和远程执行服务器,提升构建效率。sandbox 提供云端代码编辑和实时协作功能。Eureka 算法利用大型语言模型优化奖励设计。localpilot 使 Macbook 用户能够本地使用 GitHub Copilot。

早期 PS4 模拟器:跨平台游戏体验 | 开源日报 No.474

开源服务指南
开源服务指南 · 2025-01-05T23:35:17Z

本文探讨了从强化学习角度重现OpenAI o1的方法,分析了策略初始化、奖励设计、搜索与学习等关键组成部分。研究表明,合理的策略和奖励设计能显著提升模型的推理能力,推动o1及大型语言模型的发展。

Scaling of Search and Learning: A Roadmap to Reproduce o1 from a Reinforcement Learning Perspective

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本文研究了偏好的强化学习(PbRL)在复杂任务中的应用,提出了逆偏好学习(IPL)和对比偏好学习(CPL)等新算法,以提高学习效率和鲁棒性。通过动态感知奖励函数和个性化学习方法,克服了传统方法的局限性,显著提升了机器人操作等任务的性能。研究强调了人类偏好在奖励设计中的重要性,并展望了未来的发展方向。

多类型偏好学习:利用均等偏好的偏好基础强化学ä¹

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

本文探讨了强化学习中的奖励设计与塑形方法,提出多种算法以提高学习效率并解决信用分配问题。研究表明,适当的奖励设计能显著提升样本效率,并分析了马尔可夫奖励函数的表达能力及其局限性。新提出的RLBR设置和PBIM方法在复杂环境中表现优异,有效防止次优策略的出现。

BAMDP Shaping: A Unified Theoretical Framework for Intrinsic Motivation and Reward Shaping

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

该论文探讨了多智能体强化学习中的奖励设计,提出多种算法以提高探索效率和任务完成能力。研究表明,经验共享、塑形奖励和分布式任务分配等方法能有效解决稀疏奖励问题,提升学习效率和性能,尤其在复杂环境中表现突出。

通过集中式奖励代理进行多任务强化学习的知识共享与转移

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-20T00:00:00Z

本文探讨了在线学习中不同利益相关方的经济利益一致性,提出了动态合同解决方案和多智能体强化学习方法,以解决代理问题和奖励设计的冲突。研究表明,采用有效算法可以实现最优合同,提升委托方效用,并在多轮合同中取得突破性进展。

委托代理强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码