小红花·文摘 - 小红花技术领袖俱乐部

$Q-Guided Flow——RL中基于流策略的推理时梯度引导：不直接在噪声动作上求Q的梯度，也不对整条去噪链做BPTT，而是一次Euler 积分且把Jacobian直接换成单位矩阵$

Q-Guided Flow——RL中基于流策略的推理时梯度引导：不直接在噪声动作上求Q的梯度，也不对整条去噪链做BPTT，而是一次Euler 积分且把Jacobian直接换成单位矩阵

结构之法算法之道 ·