Sync GRPO Convergence

Sync GRPO Convergence by Precision & Learning Rate

Mean reward on length-penalty task (reward = −len). Optimal policy emits EOS immediately (reward = −1). Sync GRPO (standard TRL GRPOTrainer).

Smoothing 0.6