小红花·文摘

I made a policy engine think it was in production

Cloud Native Computing Foundation ·

Diffusion Policy笔记

plus studio ·

$GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理能可选性的去视频(类似τ0-WM)$

GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理能可选性的去视频(类似τ0-WM)

结构之法算法之道 ·

The Most Important Foreign Policy Speech in Years

Josherich的博客 ·

$CHIP——基于事后扰动的「人形自适应柔顺力控制」：不动reward或参考轨迹，把“受力后的位姿偏移”解释成policy本来就该跟的目标，以兼顾追踪模仿和受力后的柔顺性$

CHIP——基于事后扰动的「人形自适应柔顺力控制」：不动reward或参考轨迹，把“受力后的位姿偏移”解释成policy本来就该跟的目标，以兼顾追踪模仿和受力后的柔顺性

结构之法算法之道 ·

使用面向构建者的全新开源 MCP 服务器 IAM Policy Autopilot 简化 IAM 策略创建

亚马逊AWS官方博客 ·

开源是用户和社区的集合，依赖法律管理源代码，具有经济价值。其起源、自由软件主张及法律保障值得探讨。开源促进创新，经历了从个人合作到商业模式的发展，已成为社会的一部分。

开源的制度拼图：推荐《Open Source Law, Policy and Practice》

「开源之道」 ·

本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT，旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段，利用人类示范数据和一致性策略，解决了传统方法在真实环境中的挑战，增强了智能机械臂的精准性和泛化能力。

ConRFT——Consistency Policy下RL微调VLA的方法：离线通过演示数据微调(结合Q损失和BC损失)，后在线RL微调，且引入人工干预

结构之法算法之道 ·

本文介绍了一种新型强化学习算法——群体序列策略优化（GSPO），旨在提升大型语言模型的训练稳定性和效率。GSPO通过基于序列概率定义重要性比率，解决了GRPO算法的稳定性问题，显著提高了Qwen3模型的性能。

一文通透GSPO——Qwen3所用的“群体序列策略优化”：摒弃token级别的off-policy校正，而在序列级别利用重要性权重进行优化

结构之法算法之道 ·

本文研究了近端策略优化（PPO）中的优势估计不稳定性，提出了动态非线性缩放自适应调制优势估计方法AM-PPO，显著改善了奖励轨迹，促进了学习过程，减少了剪裁需求，具有广泛的应用潜力。

AM-PPO: Advantage-Based Alpha Modulation and Proximal Policy Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种引导策略优化（GPO）框架，旨在解决部分可观察环境中强化学习的不确定性问题。该方法通过引导者与学习者的共同训练，理论上达到了与直接强化学习相当的最优性，并在多项任务中显著优于现有方法。

Guided Policy Optimization under Partial Observability

BriefGPT - AI 论文速递 ·

本研究提出了LLM-Explorer，利用大型语言模型分析学习状态，生成特定任务的探索策略并动态调整。实验结果显示，该方法在Atari和MuJoCo基准测试中平均提升表现37.27%。

LLM-Explorer: A Large Language Model-Driven Plugin for Enhanced Reinforcement Learning Policy Exploration

BriefGPT - AI 论文速递 ·

本研究提出了Pass@K策略优化(PKPO)方法，解决了传统强化学习算法在样本独立优化中多样性不足的问题。该方法通过优化pass@k性能，提升了复杂任务中的学习能力。

Pass@K Policy Optimization: Addressing More Challenging Reinforcement Learning Problems

BriefGPT - AI 论文速递 ·

本研究提出了StepSearch框架，旨在解决大型语言模型在复杂多跳问答中的知识获取问题。通过逐步近端策略优化，该框架显著优于传统方法，验证了细粒度监督的有效性。

StepSearch: Enhancing the Search Capability of Large Language Models through Stepwise Proximal Policy Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法——行为约束策略梯度与负样本增强（BCPG-NSA），旨在优化大语言模型的推理能力。通过挖掘负样本中的反思和纠错信息，实验结果表明该方法在数学和编程推理基准测试中优于现有技术，提高了样本效率，并展现出良好的鲁棒性和可扩展性。

Unearthing Gems from Stones: Policy Optimization through Negative Sample Augmentation to Enhance Reasoning Capabilities of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架，将度量学习与大型语言模型结合，用于生态建模评估。该方法提高了农作物生产力和二氧化碳通量预测的评估能力，解决了传统评估指标在捕捉生态过程时间模式方面的不足。

I made a policy engine think it was in production

Diffusion Policy笔记

GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理能可选性的去视频(类似τ0-WM)

The Most Important Foreign Policy Speech in Years

CHIP——基于事后扰动的「人形自适应柔顺力控制」：不动reward或参考轨迹，把“受力后的位姿偏移”解释成policy本来就该跟的目标，以兼顾追踪模仿和受力后的柔顺性

使用面向构建者的全新开源 MCP 服务器 IAM Policy Autopilot 简化 IAM 策略创建

开源的制度拼图：推荐《Open Source Law, Policy and Practice》

ConRFT——Consistency Policy下RL微调VLA的方法：离线通过演示数据微调(结合Q损失和BC损失)，后在线RL微调，且引入人工干预

一文通透GSPO——Qwen3所用的“群体序列策略优化”：摒弃token级别的off-policy校正，而在序列级别利用重要性权重进行优化

AM-PPO: Advantage-Based Alpha Modulation and Proximal Policy Optimization

Guided Policy Optimization under Partial Observability

LLM-Explorer: A Large Language Model-Driven Plugin for Enhanced Reinforcement Learning Policy Exploration

Pass@K Policy Optimization: Addressing More Challenging Reinforcement Learning Problems

StepSearch: Enhancing the Search Capability of Large Language Models through Stepwise Proximal Policy Optimization

Unearthing Gems from Stones: Policy Optimization through Negative Sample Augmentation to Enhance Reasoning Capabilities of Large Language Models

LLM-based Evaluation Policy Extraction for Ecological Modeling

Flattening Hierarchies through Policy Bootstrapping

Seeking in the Dark: Instance-Level Policy Gradient Inference through Latent Space at Test Time

From protection to promotion: The new age of industrial policy

rfPG: Robust Finite-Memory Policy Gradients for Hidden-Model Partially Observable Markov Decision Processes

I made a policy engine think it was in production

Diffusion Policy笔记

GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理能可选性的去视频(类似τ0​-WM)

The Most Important Foreign Policy Speech in Years

CHIP——基于事后扰动的「人形自适应柔顺力控制」：不动reward或参考轨迹，把“受力后的位姿偏移”解释成policy本来就该跟的目标，以兼顾追踪模仿和受力后的柔顺性

使用面向构建者的全新开源 MCP 服务器 IAM Policy Autopilot 简化 IAM 策略创建

开源的制度拼图：推荐《Open Source Law, Policy and Practice》

ConRFT——Consistency Policy下RL微调VLA的方法：离线通过演示数据微调(结合Q损失和BC损失)，后在线RL微调，且引入人工干预

一文通透GSPO——Qwen3所用的“群体序列策略优化”：摒弃token级别的off-policy校正，而在序列级别利用重要性权重进行优化

AM-PPO: Advantage-Based Alpha Modulation and Proximal Policy Optimization

Guided Policy Optimization under Partial Observability

LLM-Explorer: A Large Language Model-Driven Plugin for Enhanced Reinforcement Learning Policy Exploration

Pass@K Policy Optimization: Addressing More Challenging Reinforcement Learning Problems

StepSearch: Enhancing the Search Capability of Large Language Models through Stepwise Proximal Policy Optimization

Unearthing Gems from Stones: Policy Optimization through Negative Sample Augmentation to Enhance Reasoning Capabilities of Large Language Models

LLM-based Evaluation Policy Extraction for Ecological Modeling

Flattening Hierarchies through Policy Bootstrapping

Seeking in the Dark: Instance-Level Policy Gradient Inference through Latent Space at Test Time

From protection to promotion: The new age of industrial policy

rfPG: Robust Finite-Memory Policy Gradients for Hidden-Model Partially Observable Markov Decision Processes

GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理能可选性的去视频(类似τ0-WM)