TRPO

Part 1: Why Off-Policy Breaks RL — An SGA Analysis Framework

Authors: Yingru Li, Jiacai Liu Original Blog: When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch The Problem In reinforcement learning, we often cannot sample directly from the policy $\pi_\theta$ we are optimizing.

Yingru LI, Jiacai Liu

Oct 30, 2025 11 min read Research