2.6 乐观初始化价值
目前我们所讨论的所有方法,都对于动作价值的初始值$Q_1(a)$有不同程度依赖,使用统计学的术语来讲,这些方法都会被初始估计值赋予偏差(biase)。对于样本均值方法,当对于所有动作至少选择一次后,偏差将消失,但对于恒定$\alpha$的方法,偏差是永久存在的,尽管会随着时间衰减,如式(2.6)所示,在实践中,这种偏差通常并不是问题甚至有时非常有用。关于对于初始值的依赖问题,它的缺点是初始价值估计实际上需要由用户选取,我们希望直接将初始值置为0最好;它的优点是,简便的提供了一些关于奖励水平的先验经验。
初始动作价值也可以当做一种简单的鼓励探索的方法。假设我们把全部的初始动作价值估计设定为+5,而不是像10臂老虎机问题中那样设为0,已知在该问题中是从均值为0方差为1的正态分布中选择出的,那么+5的初始估计是非常乐观的,这种乐观估计将激励动作价值方法的探索行为。也就是说,无论最初选择了何种动作,该动作的奖励将小于初始估计;由于对这个奖励的“失望”,学习者将转而选择其他动作。这种行为的结果就是在价值估计收敛前,所有的动作都被选择了多次,即便系统采用贪婪的动作策略,也会做出很多探索动作。
图2.3:乐观初始动作价值估计对10臂老虎机问题的影响。两种方法均采用了定步长参数,$\alpha=0.1$ 。
图2.3绘制了$Q_1(a)=+5$条件下10臂老虎机问题采用贪婪动作策略的表现曲线,为了比较,还绘制了Q_1(a)=0条件下采用\varepsilon-贪婪方法的表现曲线。最初,乐观初始化方法由于探索较多表现更差,但最终该方法表现更好,因为探索量会随着时间减少,我们将这种鼓励探索的技术称为乐观初始值方法(optimistic initial values)。这种小技巧可以在解决稳定问题时产生一定效果,但是这远非一种通用性的激励探索动作的方法。比如,这种方法就不适用于非稳定问题,因为该方法对于探索动作的激励是暂时的,如果任务改变,产生了新的探索需求,这种方法将失去作用。的确,任何以某种特殊方式关注初始条件的方法都不能推广到一般的非稳定情况中,由于初始只有一次,因此我们不应将过多注意力放在初始条件下。这个问题同样存在于样本均值方法中,该方法也将初始条件视为特殊的事件,并将后续的奖励以相同的权值做平均。尽管,所有这些方法都很简单,但它们中的一个或几个的简单联合,经常足够来解决实践中的问题,在本书的后续内容中,我们会经常使用这些简单的探索技术。
练习2.6 :神秘的尖峰 图2.3中显示的结果应该有很高的可信度,因为这是2000组独立随机的10臂老虎机问题的平均。为什么在乐观方法的早期曲线部分会有波动和尖峰?换句话说,针对平均值或早期的结果,哪些因素可能导致这个方法表现的更好或更糟?