小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Dreamer 4:通过想象训练从离线数据中学习实现目标

谷歌DeepMind的研究人员提出了一种新方法,通过视频训练智能体Dreamer 4,成功在Minecraft中挖掘钻石。该方法称为想象训练,强调智能体仅从离线数据学习。Dreamer 4在处理复杂任务时表现优异,使用的数据量比OpenAI的VPT少100倍,并在真实机器人数据集上也取得了良好效果。

Dreamer 4:通过想象训练从离线数据中学习实现目标

InfoQ
InfoQ · 2025-10-06T22:00:00Z

本文介绍了RLPD和RLDG两种强化学习方法,强调利用离线数据提升在线学习效率。RLPD通过对称采样结合离线数据,提高样本效率,有效解决高维状态和稀疏奖励问题。研究表明,合理设计采样和归一化策略能显著改善学习性能。

RLPD——利用离线数据实现高效的在线RL:不进行离线RL预训练,直接应用离策略方法SAC,在线学习时对称采样离线数据

结构之法 算法之道
结构之法 算法之道 · 2025-08-30T15:33:16Z
用于管理离线数据的 StorageManager API

StorageManager API 是管理离线数据的关键工具,帮助开发者优化客户端存储,提供存储估算和持久化请求功能,支持复杂数据存储。合理使用该 API 可提升应用性能,确保用户离线时顺畅使用应用。

用于管理离线数据的 StorageManager API

DEV Community
DEV Community · 2025-05-12T19:59:58Z
🧠 强化版Redux:在不破坏浏览器的情况下将状态持久化到IndexedDB

在现代React应用中,结合redux-persist、IndexedDB和fflate压缩,可以有效存储多达50MB的Redux状态,避免localStorage的限制。通过自定义转换实现状态的压缩与解压,保持IndexedDB在安全范围内,并自动清理过期缓存,适用于离线数据和大状态项目。

🧠 强化版Redux:在不破坏浏览器的情况下将状态持久化到IndexedDB

DEV Community
DEV Community · 2025-05-10T19:32:12Z

本文提出了一种新颖的演员-评论者算法,有效解决了策略评估和优化中的样本复杂度问题,能够以较低的样本复杂度实现$ ext{ε}$-最优策略,尤其在离线数据中表现突出。

Actor-Critic Achieves Optimal Sample Efficiency

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究提出了InCo-DPO方法,解决了直接偏好优化中的离线数据质量和分布偏移问题。通过整合在线与离线数据,动态调整二者的平衡,实验结果表明该方法在多个基准测试中显著提升了模型性能。

InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了“与奖励无关的策略完整性”概念,以解决交互式模仿学习中无法完全模仿专家的问题,避免离线方法中的错误,并通过额外的离线数据提升样本效率。

有效模仿在误设定下的学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z
GUI Agent 中使用 RL 提升模型泛化能力

Digi-Q 是 DigiRL 的后续项目,旨在通过离线数据训练值函数和策略网络,以降低与 GUI 环境交互的成本。采用 TD 学习和微调 VLM,Digi-Q 在 AITW 上表现出稳定性和高效性,通过离线训练实现策略优化,避免了在线数据收集的方差问题。

GUI Agent 中使用 RL 提升模型泛化能力

NotionNext BLOG
NotionNext BLOG · 2025-03-03T00:00:00Z

该文章介绍了一种离线学习框架,通过利用大规模离线数据改善大型语言模型的学习性能。该框架引入离线数据驱动的发现和精炼框架,提升大型语言模型的决策能力,并持续优于基准模型。

离线策略学习的深度生成模型:教程、调查和未来方向的展望

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-21T00:00:00Z

该文章介绍了一种离线学习框架,通过利用大规模离线数据改善大型语言模型的学习性能。该框架引入离线数据驱动的发现和精炼框架,显著提升大型语言模型的决策能力,并在基于文本和代码的策略下持续优于基准模型。

所有语言模型的大小

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-19T00:00:00Z

本文提供了系统开发中需要注意的多个方面,包括单据职责明确、架构师反馈机制、领域模型状态机、离线在线切分、前端交互和渲染、新技术新框架引入要慎重、离线数据依赖评估、跨团队跨部门交互细致、项目计划同步和代码编写等。强调了设计文档的重要性,需要细致定义每个接口的出入参和消息体的每个字段和含义,以及系统之间的交互方式。同时,也提醒了开发人员要注意代码结构的有序性和离线数据的下游依赖问题。

十年业务开发总结,如何做好高效高质量的价值交付

阿里云云栖号
阿里云云栖号 · 2023-11-01T08:41:34Z

最近的深度强化学习研究发现,可以从离线数据中提取有关良好策略的算法信息。本文介绍了一种名为Deep State Identifier的新方法,通过编码为视频的剧集学习预测回报,并利用敏感性分析来提取和识别重要的关键状态。实验证明了该方法理解和改进代理行为的潜力。

从视频中学习识别强化学习的关键状态

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码