https://richardli.xyz/post/mismatch-lr-schedule/2025-12-20T01:00:00+00:00weeklyhttps://richardli.xyz/categories/2025-12-20T01:00:00+00:00weeklyhttps://richardli.xyz/tag/deep-learning/2025-12-20T01:00:00+00:00weeklyhttps://richardli.xyz/tag/language-models/2025-12-20T01:00:00+00:00weeklyhttps://richardli.xyz/tag/learning-rate-scheduling/2025-12-20T01:00:00+00:00weeklyhttps://richardli.xyz/tag/optimization/2025-12-20T01:00:00+00:00weeklyhttps://richardli.xyz/post/2025-12-20T01:00:00+00:00weeklyhttps://richardli.xyz/tag/reinforcement-learning/2025-12-20T01:00:00+00:00weeklyhttps://richardli.xyz/category/research/2025-12-20T01:00:00+00:00weeklyhttps://richardli.xyz/tags/2025-12-20T01:00:00+00:00weeklyhttps://richardli.xyz/category/theory/2025-12-20T01:00:00+00:00weeklyhttps://richardli.xyz/post/optimal-token-baseline/2025-12-20T00:30:00+00:00weeklyhttps://richardli.xyz/tag/variance-reduction/2025-12-20T00:30:00+00:00weeklyhttps://richardli.xyz/tag/policy-optimization/2025-12-20T00:00:00+00:00weeklyhttps://richardli.xyz/tag/trust-region/2025-12-20T00:00:00+00:00weeklyhttps://richardli.xyz/post/trust-region-masking/2025-12-20T00:00:00+00:00weeklyhttps://richardli.xyz/tag/large-language-models/2025-12-07T00:00:00+00:00weeklyhttps://richardli.xyz/tag/llm-rl/2025-12-07T00:00:00+00:00weeklyhttps://richardli.xyz/tag/mixture-of-experts/2025-12-07T00:00:00+00:00weeklyhttps://richardli.xyz/post/topk-routing-stability-gap/2025-12-07T00:00:00+00:00weeklyhttps://richardli.xyz/tag/training-dynamics/2025-12-07T00:00:00+00:00weeklyhttps://richardli.xyz/tag/bandits/2025-11-29T00:00:00+00:00weeklyhttps://richardli.xyz/tag/exploration/2025-11-29T00:00:00+00:00weeklyhttps://richardli.xyz/post/scalable-exploration/2025-11-29T00:00:00+00:00weeklyhttps://richardli.xyz/tag/thompson-sampling/2025-11-29T00:00:00+00:00weeklyhttps://richardli.xyz/tag/agent-architecture/2025-11-07T00:00:00+00:00weeklyhttps://richardli.xyz/category/engineering/2025-11-07T00:00:00+00:00weeklyhttps://richardli.xyz/tag/language-agents/2025-11-07T00:00:00+00:00weeklyhttps://richardli.xyz/post/language-rl-agent/2025-11-07T00:00:00+00:00weeklyhttps://richardli.xyz/tag/software-engineering/2025-11-07T00:00:00+00:00weeklyhttps://richardli.xyz/tag/chain-of-thought/2025-11-04T00:00:00+00:00weeklyhttps://richardli.xyz/category/documentation/2025-11-04T00:00:00+00:00weeklyhttps://richardli.xyz/tag/importance-sampling/2025-11-04T00:00:00+00:00weeklyhttps://richardli.xyz/post/verl-rollout-correction/2025-11-04T00:00:00+00:00weeklyhttps://richardli.xyz/tag/off-policy/2025-11-04T00:00:00+00:00weeklyhttps://richardli.xyz/tag/off-policy-learning/2025-11-04T00:00:00+00:00weeklyhttps://richardli.xyz/post/rl-collapse-part3/2025-11-04T00:00:00+00:00weeklyhttps://richardli.xyz/tag/verl/2025-11-04T00:00:00+00:00weeklyhttps://richardli.xyz/post/rl-collapse-part2/2025-10-31T00:00:00+00:00weeklyhttps://richardli.xyz/tag/ppo/2025-10-31T00:00:00+00:00weeklyhttps://richardli.xyz/post/rl-collapse-part1/2025-10-30T00:00:00+00:00weeklyhttps://richardli.xyz/tag/trpo/2025-10-30T00:00:00+00:00weeklyhttps://richardli.xyz/post/information-bandwidth-rl/2025-10-01T00:00:00+00:00weeklyhttps://richardli.xyz/tag/information-theory/2025-10-01T00:00:00+00:00weeklyhttps://richardli.xyz/post/rl-collapse-training-inference/2025-09-17T00:00:00+00:00weeklyhttps://richardli.xyz/tag/algorithm/2024-03-23T13:30:00+00:00weeklyhttps://richardli.xyz/tag/efficiency/2024-03-23T13:30:00+00:00weeklyhttps://richardli.xyz/talk/hyperagent-a-simple-efficient-scalable-and-provable-rl-framework/2024-03-23T13:30:00+00:00weeklyhttps://richardli.xyz/tag/random-projection/2024-03-23T13:30:00+00:00weeklyhttps://richardli.xyz/event/2024-03-23T13:30:00+00:00weeklyhttps://richardli.xyz/tag/regret/2024-03-23T13:30:00+00:00weeklyhttps://richardli.xyz/talk/hyperagent-a-simple-efficient-and-scalable-rl-framework-for-complex-environments/2024-01-13T13:20:00+00:00weeklyhttps://richardli.xyz/2023-12-07T00:00:00+00:00weeklyhttps://richardli.xyz/tag/agi/2023-10-21T14:30:00+00:00weeklyhttps://richardli.xyz/talk/towards-agi-for-humanity-through-efficient-reinforcement-learning/2023-10-21T14:30:00+00:00weeklyhttps://richardli.xyz/tag/application/2022-08-23T14:00:00+00:00weeklyhttps://richardli.xyz/tag/bandit/2022-08-23T14:00:00+00:00weeklyhttps://richardli.xyz/tag/game-theory/2022-08-23T14:00:00+00:00weeklyhttps://richardli.xyz/tag/multi-agent/2022-08-23T14:00:00+00:00weeklyhttps://richardli.xyz/talk/no-regret-learning-in-unknown-game-with-applications/2022-08-23T14:00:00+00:00weeklyhttps://richardli.xyz/talk/hyperdqn-randomized-exploration-for-deep-reinforcement-learning/2021-12-14T00:00:00+00:00weeklyhttps://richardli.xyz/publication_types/weekly