1.3 增强学习基础

除了代理(agent)和环境(environment),增强学习系统还有四种主要的子元素:策略(policy),奖励信号(reward signal),值函数(value function)以及可选项——描述环境的模型(model)。

策略(policy)规定了代理(agent)在特定时间的行为方式。简单来讲,策略是由感知到的环境状态(state)到对应状态下的动作(action)的映射。这和心理学中的条件反射相类似。在某些情况下,策略可能仅仅是一个简单的函数或者查找表,而在某些情况下,它也可能涉及到大量的计算,比如搜索进程。仅仅靠策略就足以决定一个动作,因此策略可以说是增强学习代理的核心。一般来讲,策略可能是随机的。

奖励信号(reward signal)规定了增强学习问题的目标。在算法运行的每一步,环境都会给增强学习代理反馈一个数字,我们称这个数字为奖励。代理唯一的目标就是要最大化在运行过程中接收到的总的奖励值。因此,奖励信号反应了事件对于代理的好坏程度。我们可以类比在生物系统中,奖励就好比生物的愉悦或者痛苦的体验。奖励是立即反馈的,并且反映出代理面对的问题的特征。奖励信号是改进策略的主要依据;如果代理执行的动作导致了一个低奖励,那么策略可能就会改变,在以后再遇到这种情形时就会选择其他动作。一般来讲,奖励信号可能是环境状态和选择的动作的随机函数。

奖励信号会立即反馈好坏,而价值函数(value function)反应了长期的好坏。简单来讲,一个状态的价值(value)是从该状态开始,预期到的未来的奖励(reward)的累加。奖励确定了一个状态当前的好坏,而价值(value)确定了一个状态长期的价值,它会考虑该状态之后可能的状态,以及可能接受到的奖励。比如说,一个状态可能总是反馈一个低的实时奖励(reward),但是仍然有一个高的价值(value),因为这个状态之后总是跟着一些会反馈高奖励的状态。或者反过来讲也一样。类比于我们人类,奖励就像当前的愉悦(奖励值高)和痛苦(奖励值低),而价值更像是对于我们是否愉悦的一个更完善和有远见的判断。了解了这些,我们希望价值函数是对于读者来讲是一种基本和熟悉的概念。

奖励在某种程度上是主要的,而价值,作为奖励的预测值,在某种程度上是次要的。没有奖励,那就不可能有价值,而且估算价值的唯一目的是为了获得更多的奖励。不过,当我们做决策和评估决策的时候,我们最关心的是价值。我们基于价值评估来选择动作行为。我们选择会为我们带来最高价值的动作,而不是带来最高奖励的动作,因为这样我们就能在一段时间内的累计最多的奖励。不幸的是,确定价值比确定奖励要困难的多。奖励基本上是直接由环境给出,而价值必须由代理根据它整个生命周期内观测到的感知序列来评估和预评估。事实上,几乎所有增强学习算法的最重要的部分就是如何有效地评估价值。价值评估的核心作用可以说是我们近几十年来学到的关于增强学习最重要的东西。

增强学习系统第四个也是最后一个部分就是关于环境的模型(model)。模型会模仿环境的行为,或者预测环境可能的行为。比如,根据一个状态和动作,模型就能预测下一个状态和奖励。模型被用来规划(planning),通过这种方式,我们可以通过考虑未来可能出现的情况来决定采取行动。用模型和规划来解决增强学习问题的方法被称作基于模型(model-based)方法,相对的,使用试错学习(trial and error)——规划的反面的方法,被称作无模型(model-free)方法。在第八章,我们探索一种同时使用试错、基于环境模型并且使用规划的增强学习系统。现代强化学习涵盖了从低水平的试错学习到高水平的规划学习。

results matching ""

    No results matching ""