Precision Matters: AsyncGRPO Convergence

AsyncGRPO Convergence by Numerical Precision

Mean reward on length-penalty task (reward = −len). Optimal policy emits EOS immediately (reward = −1).

Smoothing 0.6