强化学习——策略优化(笔记)

发布时间:2025-03-18 13:36

使用强化学习优化深度神经网络的决策策略 #生活技巧# #学习技巧# #深度学习技巧#

强化学习——策略优化(笔记)

最新推荐文章于 2025-01-16 20:17:50 发布

我是。 于 2020-01-31 18:12:05 发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文将会讨论策略优化的数学基础,并且会附上简单的实践代码。三个要点

一个简单的等式,将策略梯度跟策略模型参数连接起来 一条规则,允许我们将无用的项从等式里去掉 另一条规则,允许我们在等式中添加有用的项

推导最简单的策略梯度

在这里,我们考虑随机参数化策略的情况 π θ \pi _ {\theta} πθ​。我们的目标是使预期收益 J ( π θ ) = E τ ∼ π θ [ R ( τ ) ] J(\pi _ {\theta})= \underset{\tau \sim \pi _ {\theta} }{E}[ {R(\tau)}] J(πθ​)=τ∼πθ​E​[R(τ)]最大化。出于此推导的目的,我们将 R ( τ ) R(\tau) R(τ)设为有限无折扣收益(无限折现收益设置的推导几乎相同)。

我们想要通过梯度上升来优化策略,例如:
θ k + 1 = θ k + α ∇ θ J ( π θ ) ∣ θ k \theta_{k+1} = \theta_k + \alpha \left. \nabla_{\theta} J(\pi_{\theta}) \right|_{\theta_k} θk+1​=θk​+α∇θ​J(πθ​)∣θk​​

其中 ∇ θ J ( π θ ) \nabla_{\theta}J(\pi_{\theta}) ∇θ​J(πθ​)称为策略梯度,利用策略梯度来优化策略模型这种方法叫做策略梯度算法,例如VPG、TRPO。PPO通常也被称为策略梯度算法,但是这有点不太准确)

要实际使用此算法,我们需要一个可以通过数值计算的策略梯度表达式。这涉及两个步骤:

得出策略模型的可解析的梯度,其形式跟期望值相差不大, 对期望值进行样本估计,使其可以使用代理与环境交互产生的数据进行计算

在本小节中,我们将找到该表达式的最简单形式。在后面的小节中,我们将展示如何以最简单的形式进行改进,以获取我们在标准策略梯度实现中实际使用的版本。

1.序列的概率。由 π θ \pi _ {\theta} πθ​产生动作, τ = ( s 0 , a 0 , . . . , s T + 1 ) \tau =(s_0,a_0,...,s_ {T + 1}) τ=(s0​,a0​,...,s

网址:强化学习——策略优化(笔记) https://www.yuejiaxmz.com/news/view/830297

相关内容

《强化学习》学习笔记3——策略学习
强化学习笔记二
ChatGPT强化学习大杀器——近端策略优化(PPO)
强化学习中的多目标优化策略研究
强化学习中的策略迭代算法优化研究
学霸带你优化学习方改进学习策略
强化学习中策略网络模型设计与优化技巧
高考数学素养与数学学习策略优化
创建高性能强化学习环境:关键技术与优化策略
提升学习效率:优化学习习惯与方法的策略

随便看看