2.5 解决非固定情况

目前所讨论的平均方法对于稳定老虎机问题是适宜的,所谓稳定问题也就是奖励概率始终不发生变化的问题。如前所述,在强化学习问题中我们经常遇到带有不稳定特性的问题,在这种问题中,相比很久前的奖励,给予近期奖励更大的权重通常更有效。实现该方法的一个常用手段是使用固定的步长参数,比如在增量式更新规则(2.3)中,我们将过去n-1个奖励的均值Q_n的更新公式修改为:

  Q_{n+1}=Q_n+\alpha\big[R_n-Q_n\big],(2.5)

式中步长参数\alpha\in(0,1]为定值。^{1} 这种方法使得Q_{n+1}成为过去的奖励和最初的估计Q_1的加权均值:

\begin{aligned} Q{n+1}\quad &=\quad Q_n+\alpha\big[R_n-Q_n\big]\ &=\quad \alpha R_n+(1-\alpha)Q_n\ &=\quad \alpha R_n+(1-\alpha)[\alpha R{n-1}+(1-\alpha)Q{n-1}]\ &=\quad \alpha R_n+(1-\alpha)\alpha R{n-1}+(1-\alpha)^2Q{n-1}\ &=\quad \alpha R_n+(1-\alpha)\alpha R{n-1}+(1-\alpha)^2\alpha R{n-2}+\ &\qquad\qquad\qquad\qquad\cdots(1-\alpha)^{n-1}\alpha R_1+(1-\alpha)^{n}Q_1\ &=\quad(1-\alpha)^{n}Q_1+\sum{i=1}^{n}\alpha(1-\alpha)^{n-i}R_i.(2.6) \end{aligned}

我们将上式称为加权均值是由于权值和(1-\alpha)^{n}+\sum_{i=1}^{n}\alpha(1-\alpha)^{n-i}=1,读者可自行演算。我们可以注意到在该式中,奖励R_i的权值\alpha(1-\alpha)^{n-i}由该奖励发生距当前的时间步数n-i确定,由于1-\alpha小于1,因此随着奖励R_i发生的到当前动作结束之间奖励数量的增多,赋予R_i的权值将减小。实际上,根据1-\alpha的幂指数,权值将呈指数衰减,(如果1-\alpha=0,那么将只有R_n具有权值,因为0^0=1 )因此,该方法有时被称为指数近因加权平均 。

有时每个时间步更新步长参数是很便捷的,设\alpha_n(a)表示第n次选择动作a时计算奖励所使用的步长参数,若令\alpha_n(a)=\frac{1}{n} ,则计算过程为样本均值计算方法,根据大数定律,该方法可以保证收敛至动作价值的真值。但,当然不是所有的序列{\alpha_n(a)}都可以保证收敛性。在随机近似理论的一项著名成果中,我们可以得到保证价值估计收敛的条件:

  \sum_{n=1}^{\infty}\alpha_n(a)=\infty和\sum_{n=1}^{\infty}\alpha_{n}^{2}(a)<\infty.(2.7)

第一个条件可以保证每次更新足够大来克服初始条件或随机扰动带来的影响;第二个条件可以保证最终的更新足够小来实现收敛。

我们可以发现,样本均值法中使用的\alpha_n(a)=\frac{1}{n},可以满足上述两个收敛条件。而定步长参数\alpha_n(a)=\alpha的情况无法满足第二个收敛条件,这表示价值估计永远不会完全收敛,而是根据最近的奖励值变化,就像我们前面提到的,这种特性对于解决非稳定环境的问题实际上是有效的,这种非稳定问题在强化学习中是最为常见的。此外,满足条件(2.7)的步长参数经常收敛的非常缓慢,或者需要大量的调整来实现令人满意的收敛率。尽管这种满足收敛条件的步长参数序列经常被用于理论研究,我们很少在实际使用或实证研究中使用它们。

练习2.4 如果步长参数\alpha_n不是恒定值,那么价值估计Q_n就是一个过去奖励值的加权均值,且其权重不同于(2.6)中给出的。对于一般情况来说,类比(2.6),考虑步长参数序列,所有奖励的权值如何表示?

练习2.5(编程) 设计并实现一个实验来说明在解决非稳定问题时样本均值法所面临的困难。使用一个10臂老虎机修改版的实验床,其中全部q*(a)起始均相等,而后采取随机独立动作(如在每一时间步中为q*(a)加入均值为0标准差为0.01的正态分布增量)。绘制如图2.2形式的使用增量式样本均值公式的动作价值方法曲线,另外绘制定步长动作价值方法曲线,其中\alpha=0.1 。取\varepsilon=0.1 ,运行多步,如10,000步。

[1]: 符号(a,b]表示包含b不包含a的两者间的实数区间集合,在此表述的意思也就是0<\alpha\le1 。

results matching ""

    No results matching ""