小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Diffusion Policy笔记

本文讨论了Diffusion Policy在机器人动作规划中的应用。通过神经网络预测噪声并逐步去噪,机器人能够生成精准的动作轨迹。尽管面临视觉遮挡和物理干扰,机器人依然能重新规划路径,展现出强大的适应能力。研究表明,该模型在学习物理系统动力学方面表现出色。

Diffusion Policy笔记

plus studio
plus studio · 2026-04-10T00:00:00Z
GigaWorld-Policy——以动作为中心的世界动作模型:为降低推理延迟,训练用视频,推理能可选性的去视频(类似τ0​-WM)

GigaWorld-Policy是一种高效的以动作为中心的世界-动作模型,旨在提升机器人策略学习。该模型结合未来视觉动态与动作预测,优化学习效率并减少推理延迟。通过课程式训练和多样化视频源注入物理先验,在机器人数据上进行预训练,以增强对交互动力学的鲁棒性。

GigaWorld-Policy——以动作为中心的世界动作模型:为降低推理延迟,训练用视频,推理能可选性的去视频(类似τ0​-WM)

结构之法 算法之道
结构之法 算法之道 · 2026-03-23T15:52:37Z

The Most Important Foreign Policy Speech in Years

The Most Important Foreign Policy Speech in Years

Josherich的博客
Josherich的博客 · 2026-01-27T00:00:01Z
CHIP——基于事后扰动的「人形自适应柔顺力控制」:不动reward或参考轨迹,把“受力后的位姿偏移”解释成policy本来就该跟的目标,以兼顾追踪模仿和受力后的柔顺性

CHIP是一种自适应柔顺控制方法,通过事后干扰提升人形机器人在外力作用下的稳定性和灵活性。该方法简化了运动编辑问题,改善了机器人在擦拭、开门和多机器人协作等任务中的表现,并可无缝集成到现有系统中,具有广泛应用潜力。

CHIP——基于事后扰动的「人形自适应柔顺力控制」:不动reward或参考轨迹,把“受力后的位姿偏移”解释成policy本来就该跟的目标,以兼顾追踪模仿和受力后的柔顺性

结构之法 算法之道
结构之法 算法之道 · 2025-12-20T14:37:03Z
使用面向构建者的全新开源 MCP 服务器 IAM Policy Autopilot 简化 IAM 策略创建

IAM Policy Autopilot是一款开源工具,能够分析应用代码并自动生成AWS IAM策略,帮助开发者加速开发流程。它支持Python、TypeScript和Go,并与多种AI编程助手集成,提供专业的IAM知识。

使用面向构建者的全新开源 MCP 服务器 IAM Policy Autopilot 简化 IAM 策略创建

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-03T02:16:01Z

开源是用户和社区的集合,依赖法律管理源代码,具有经济价值。其起源、自由软件主张及法律保障值得探讨。开源促进创新,经历了从个人合作到商业模式的发展,已成为社会的一部分。

开源的制度拼图:推荐《Open Source Law, Policy and Practice》

「开源之道」
「开源之道」 · 2025-09-10T04:31:29Z

本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT,旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段,利用人类示范数据和一致性策略,解决了传统方法在真实环境中的挑战,增强了智能机械臂的精准性和泛化能力。

ConRFT——Consistency Policy下RL微调VLA的方法:离线通过演示数据微调(结合Q损失和BC损失),后在线RL微调,且引入人工干预

结构之法 算法之道
结构之法 算法之道 · 2025-09-09T16:32:23Z

本文介绍了一种新型强化学习算法——群体序列策略优化(GSPO),旨在提升大型语言模型的训练稳定性和效率。GSPO通过基于序列概率定义重要性比率,解决了GRPO算法的稳定性问题,显著提高了Qwen3模型的性能。

一文通透GSPO——Qwen3所用的“群体序列策略优化”:摒弃token级别的off-policy校正,而在序列级别利用重要性权重进行优化

结构之法 算法之道
结构之法 算法之道 · 2025-08-25T04:42:10Z

本文研究了近端策略优化(PPO)中的优势估计不稳定性,提出了动态非线性缩放自适应调制优势估计方法AM-PPO,显著改善了奖励轨迹,促进了学习过程,减少了剪裁需求,具有广泛的应用潜力。

AM-PPO: Advantage-Based Alpha Modulation and Proximal Policy Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种引导策略优化(GPO)框架,旨在解决部分可观察环境中强化学习的不确定性问题。该方法通过引导者与学习者的共同训练,理论上达到了与直接强化学习相当的最优性,并在多项任务中显著优于现有方法。

Guided Policy Optimization under Partial Observability

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了LLM-Explorer,利用大型语言模型分析学习状态,生成特定任务的探索策略并动态调整。实验结果显示,该方法在Atari和MuJoCo基准测试中平均提升表现37.27%。

LLM-Explorer: A Large Language Model-Driven Plugin for Enhanced Reinforcement Learning Policy Exploration

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了Pass@K策略优化(PKPO)方法,解决了传统强化学习算法在样本独立优化中多样性不足的问题。该方法通过优化pass@k性能,提升了复杂任务中的学习能力。

Pass@K Policy Optimization: Addressing More Challenging Reinforcement Learning Problems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了StepSearch框架,旨在解决大型语言模型在复杂多跳问答中的知识获取问题。通过逐步近端策略优化,该框架显著优于传统方法,验证了细粒度监督的有效性。

StepSearch: Enhancing the Search Capability of Large Language Models through Stepwise Proximal Policy Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种新方法——行为约束策略梯度与负样本增强(BCPG-NSA),旨在优化大语言模型的推理能力。通过挖掘负样本中的反思和纠错信息,实验结果表明该方法在数学和编程推理基准测试中优于现有技术,提高了样本效率,并展现出良好的鲁棒性和可扩展性。

Unearthing Gems from Stones: Policy Optimization through Negative Sample Augmentation to Enhance Reasoning Capabilities of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种新框架,将度量学习与大型语言模型结合,用于生态建模评估。该方法提高了农作物生产力和二氧化碳通量预测的评估能力,解决了传统评估指标在捕捉生态过程时间模式方面的不足。

LLM-based Evaluation Policy Extraction for Ecological Modeling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种新算法,通过优势加权重要性采样训练平面目标条件策略,解决了离线目标条件强化学习中的稀疏奖励和折扣问题。该方法无需生成(子)目标空间模型,并在复杂长期任务中展现出超越现有技术的潜力。

Flattening Hierarchies through Policy Bootstrapping

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本文提出了一种新方法LatentSeek,通过潜在空间实现实例级适应,显著提升大型语言模型的推理能力,在多个基准测试中超越现有方法,展现出高效性和可扩展性。

Seeking in the Dark: Instance-Level Policy Gradient Inference through Latent Space at Test Time

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

Government subsidies, investment incentives, and other industrial-policy actions have almost quadrupled since 2017. Here’s how business leaders can navigate the impact of industrial policy on...

From protection to promotion: The new age of industrial policy

McKinsey Insights & Publications
McKinsey Insights & Publications · 2025-05-16T00:00:00Z

本研究提出了一种新的稳健策略计算方法,解决了部分可观察马尔可夫决策过程(POMDP)中策略对环境扰动的稳健性问题。通过结合形式化验证与次梯度上升优化,实验结果表明该方法在多个基准测试中展现出更好的稳健性和泛化能力。

rfPG: Robust Finite-Memory Policy Gradients for Hidden-Model Partially Observable Markov Decision Processes

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

该研究提出了一种意图感知策略图,以解决自动驾驶车辆决策过程的不透明性问题。通过提供可解释的车辆行为,增强社会信任和监管接受度,并识别自动驾驶数据集中的潜在漏洞。

Explaining Autonomous Vehicles with Intention-aware Policy Graphs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码