强化学习价值函数方法笔记

发布人：shili8 发布时间：2025-02-27 10:38 阅读次数：0

**强化学习价值函数方法笔记**

强化学习（Reinforcement Learning, RL）是机器学习的一个分支，研究如何让智能体通过试错、探索和利用奖励信号来学习最佳行为。价值函数（Value Function）是RL中一个重要的概念，它描述了在某一状态下采取某一行动所获得的总回报。

**价值函数定义**

假设我们有一个MDP（Markov Decision Process），它由以下组成：

* **状态空间**：S* **动作空间**：A* **转移概率**：P(s' | s, a)
* **奖励函数**：R(s, a)

价值函数定义为：

Vπ(s) = E[∑_{t=0}^{∞} γ^t R(s_t, a_t)]其中，γ是折扣因子（Discount Factor），它表示未来回报的重要性。

**价值函数类型**

有两种常见的价值函数：

* **状态值函数**：Vπ(s)
* **动作值函数**：Qπ(s, a)

状态值函数描述了在某一状态下采取任何行动所获得的总回报。动作值函数描述了在某一状态下采取某一行动所获得的总回报。

**价值函数更新**

价值函数可以通过以下方式更新：

* **MC（Monte Carlo）方法**：直接估计价值函数* **TD（Temporal Difference）方法**：利用样本数据估计价值函数### MC方法示例

import numpy as np# 定义MDP参数gamma =0.9num_episodes =10000# 初始化价值函数V = np.zeros((10,))

# 运行MC方法for episode in range(num_episodes):
 #生成随机序列 sequence = np.random.randint(0,10, size=20)
 # 计算回报 rewards = [np.random.rand() for _ in range(19)]
 total_reward = sum(rewards) + V[sequence[-1]]
 # 更新价值函数 for i in range(len(sequence)):
 V[sequence[i]] += gamma ** (len(sequence) -1 - i) * (total_reward - V[sequence[i]])

### TD方法示例

import numpy as np# 定义MDP参数gamma =0.9num_episodes =10000# 初始化价值函数V = np.zeros((10,))

# 运行TD方法for episode in range(num_episodes):
 #生成随机序列 sequence = np.random.randint(0,10, size=20)
 # 计算回报 rewards = [np.random.rand() for _ in range(19)]
 total_reward = sum(rewards) + V[sequence[-1]]
 # 更新价值函数 for i in range(len(sequence)):
 V[sequence[i]] += gamma ** (len(sequence) -1 - i) * (total_reward - V[sequence[i]])
# 使用TD方法更新价值函数for episode in range(num_episodes):
 #生成随机序列 sequence = np.random.randint(0,10, size=20)
 # 计算回报 rewards = [np.random.rand() for _ in range(19)]
 total_reward = sum(rewards) + V[sequence[-1]]
 # 更新价值函数 for i in range(len(sequence)):
 V[sequence[i]] += gamma ** (len(sequence) -1 - i) * (total_reward - V[sequence[i]])

**总结**

强化学习中的价值函数是描述智能体在某一状态下采取某一行动所获得的总回报的一个重要概念。MC方法和TD方法是两种常见的价值函数更新方法，分别利用样本数据直接估计价值函数和利用样本数据估计价值函数。通过这些方法，我们可以学习最佳行为并实现智能体的决策能力。

**参考**

* Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction.
* Kaelbling, L. P., Littman, M. L., & Moore, A. W. (1996). Reinforcement learning: A survey.
* Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning.

上一条：多态及其原理

下一条：QT---day1(QT的介绍、常用类及组件)