1.6 本章总结

强化学习是一种理解和自动化实现目标导向学习与决策的计算方法,但该方法区别于其他的计算方法,因为其强调代理在与环境直接交互中的学习,而非依赖典型范例的监督或环境的完整模型。在我们看来,强化学习是第一种严格意义上,用来应对关于交互学习中如何实现长期目标的计算问题的方法。 强化学习使用马尔科夫决策过程(Markov decision processes)的典型框架来定义关于状态、动作和奖励的代理与环境交互过程,这种框架意图以简单的方式表现人工智能问题的本质特征。这些特征包括因果关系,不确定性,非定常性以及明确目标的存在性。 价值和价值函数的概念是本书中所考虑的大部分强化学习方法的重要特征,我们认为价值函数对于高效的策略搜索非常重要。价值函数的使用使强化学习方法区别于进化方法,因为进化方法直接利用对全部策略的标量评估来进行策略搜索。

results matching ""

    No results matching ""