Policy Gradient Methods

Definition:
REINFORCE Algorithm

$\nabla_\theta J = \frac{1}{N}\sum_{i=1}^{N}\sum_{t=0}^{T}\nabla_\theta \log \pi_\theta(a_t^i|s_t^i) \cdot G_t^i$ $where$ G_t^i $is the discounted return from time$ t$.

Definition:
Proximal Policy Optimization (PPO)

PPO clips the policy ratio to prevent large updates:

$L^{\text{CLIP}} = \mathbb{E}_t\left[\min\left(r_t(\theta) \hat{A}_t, \; \text{clip}(r_t(\theta), 1-\varepsilon, 1+\varepsilon) \hat{A}_t\right)\right]$

where $r_t(\theta) = \pi_\theta(a_t|s_t) / \pi_{\theta_{\text{old}}}(a_t|s_t)$ .

Value-Based Methods RL for Communications and Networking

Policy Gradient Methods

Definition: REINFORCE Algorithm

Definition: Proximal Policy Optimization (PPO)

Definition:
REINFORCE Algorithm

Definition:
Proximal Policy Optimization (PPO)