Action Value Gradient

Paper: Deep Policy Gradient Methods Without Batch Updates, Target Networks, or Replay Buffers [https://arxiv.org/abs/2411.15370]