Chapter2 多臂老虎机

增强学习区别于其他学习方法的一个重要特点就是利用行动后的评估而不是来自外部的正确结果的指导来作为学习信息。由于需要对好的行为的明确搜索,所以需要积极探索。不是直接判断行动是最佳还是最差,而是评估行动的好坏程度。另一方面,完全的指导性的反馈表明的是应该采取的正确行动,而于实际采取的行动没有关系。这种反馈是监督学习的基础,这类学习包括模式分类、人工神经网络、系统识别。这两种最单纯的形式下,这两类反馈还是有很明显的区别的:一种是完全依赖采取的行动可评估反馈,一种是与采取的行动没关系的指导性反馈。

本章在一个简单的案例下研究增强学习的评价这一方面,这个案例只学习在限制在单一的情境下的行为。这一独立案例中很多可评估反馈的前置工作都已经完成,所以避免了一个完整的增强学习问题中很多复杂的工作。通过研究这一案例,可以让我们更加明晰可评估反馈与指导性反馈的不同,以及如何结合两者。

我们要探索的独立、可评估反馈的问题就是多臂老虎机问题的一种简单版本。我们会利用这个问题来介绍很多基本的学习方法,这些方法会在后续的章节中继续扩展以应用于完整的增强学习问题。本章结尾,通过老虎机问题相关化后,也就是行动需要针对多种情境,又会发生什么的讨论,我们会更进一步接近完整的增强学习问题。

results matching ""

    No results matching ""