我有点酷-HuntZou的博客 ·

clipped surrogate loss in PPO

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

PPO是一种off policy的强化学习算法，通过转换策略分布中的采样数据来更新模型参数。PPO使用公式中的概率比值来决定是否更新模型参数，并使用clamp来裁切比值。关键词：PPO, off policy, 强化学习, 概率比值, clamp

🎯

🏷️

The loss of Situational Awareness
I am not by any means an expert at finance but I think I do now have some adv...
机器人仿生学每年几百项发明：都在打脸达尔文进化论
进化论说身体充满垃圾设计，但工程师每年靠抄人体拿几百万专利费，谁在打谁的脸？进化论者说人体是设计垃圾场，可全球仿生学期刊每期都登工程师抄人体抄出新发明，...
简历藏白字指令骗AI筛选器：求职者反向驯化算法暗战升级
简历藏白字，AI面试官当场破防，这场人机谍战谁先眨眼？招聘系统正变成一台巨大的谎言探测仪，而求职者手里的白字指令就是第一颗烟雾弹。当算法开始用毫秒级速度...
学习周刊-总第274期-2026年第31周
如要阅读全文，点击标题跳转。学习周刊-总第274期 | nextclaw | GHFS | desktop-cc-gui | nowen-video ...
从 Krita 维护版更新，看开源创作工具的稳定性账本
Krita 5.3.3 和 6.0.3 主要是维护更新，但这类版本更能看出开源创作工具的工程耐心。相比新功能，真正影响日常使用的是崩溃修复、平台差异、分发渠道和升级风险。
陪孩子九寨沟游学第五日—结营
最后一天，上午自由休整。下午结营仪式，一样有当地艺人的民俗演出。傍晚开炉烤肉，爸爸们轮番上阵，孩子们奔走抢肉。中间还玩了涂墨大赛，弄得脸上身上都是墨水。晚...