Value-based and Policy-gradient Reinforcement Learning

发布人：shili8 发布时间：2025-02-08 17:54 阅读次数：0

**价值函数和策略梯度强化学习**

强化学习（Reinforcement Learning）是机器学习的一个分支，研究如何让智能体通过试错、探索环境并根据经验调整行为来实现目标。价值函数（Value Function）和策略梯度（Policy Gradient）是两种常见的强化学习方法。

**价值函数**

价值函数是一种预测智能体在某一状态下采取某一行动后所获得的总回报（return）的方法。它可以帮助智能体评估不同行动的好坏，并根据此评估调整行为。

假设智能体在状态空间中移动，状态为 $s$，动作为 $a$，奖励函数为 $r(s, a)$，价值函数 $V(s)$ 的定义如下：

$$V(s) = E[sum_{t=0}^{T-1} r(s_t, a_t) | s_0 = s]$$其中 $E$ 表示期望值，$s_t$ 和 $a_t$ 分别表示在时间步 $t$ 的状态和动作。

价值函数可以通过以下方法计算：

* **MC（Monte Carlo）估计**：使用经验回报来估计价值函数。
* **TD（Temporal Difference）学习**：使用当前状态的价值函数来预测下一个状态的价值函数，然后根据差异进行更新。

###价值函数示例

import numpy as npclass ValueFunction:
 def __init__(self, num_states):
 self.num_states = num_states self.values = np.zeros(num_states)

 def update(self, state, reward, gamma=0.9):
 # TD学习 self.values[state] +=1e-3 * (reward + gamma * self.values[state] - self.values[state])

# 初始化价值函数vf = ValueFunction(10)
print(vf.values) # 输出初始值# 更新价值函数vf.update(0,1.0)
print(vf.values) # 输出更新后的值

**策略梯度**

策略梯度是指根据智能体的行为调整其行动概率分布的方法。它可以帮助智能体找到最优策略。

假设智能体在状态空间中移动，状态为 $s$，动作为 $a$，奖励函数为 $r(s, a)$，策略梯度 $pi(a | s)$ 的定义如下：

$$pi(a | s) = P(a_t = a | s_t = s)$$其中 $P$ 表示概率。

策略梯度可以通过以下方法计算：

* **MC（Monte Carlo）估计**：使用经验回报来估计策略梯度。
* **SGD（Stochastic Gradient Descent）学习**：使用当前状态的策略梯度来预测下一个状态的策略梯度，然后根据差异进行更新。

### 策略梯度示例

import numpy as npclass PolicyGradient:
 def __init__(self, num_states, num_actions):
 self.num_states = num_states self.num_actions = num_actions self.policy = np.zeros((num_states, num_actions))

 def update(self, state, action, reward, gamma=0.9):
 # SGD学习 self.policy[state, action] +=1e-3 * (reward + gamma * self.policy[state, action] - self.policy[state, action])

# 初始化策略梯度pg = PolicyGradient(10,5)
print(pg.policy) # 输出初始值# 更新策略梯度pg.update(0,0,1.0)
print(pg.policy) # 输出更新后的值

**总结**

价值函数和策略梯度是两种常见的强化学习方法。它们可以帮助智能体评估不同行动的好坏，并根据此评估调整行为。通过使用MC或TD来估计价值函数，或者使用SGD来估计策略梯度，可以实现智能体的自我改进。

**参考**

* Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction.
* Mnih, V., Kavukcuoglu, T., Silver, D., Graves, C. J., Antonoglou, K., Wierstra, D., ... & Riedmiller, M. (2015). Human-level control through deep reinforcement learning.
* Schulman, J., Levine, S., Abbeel, P., Jordan, M. I., & Moritz, P. (2017). Trust region policy optimization.

上一条：ControlNet新玩法！一键生成AI艺术二维码QR

下一条：Microsoft Edge 浏览器的怎么传文件