强化学习
编辑推荐
适读人群 :人工智能领域的研究者、高端技术人员、研究生、学者
1.本书由17位不同领域的专家对强化学习进行了深入而完整的描述,涉及基础理论到高效解决方案框架的各个方面,反映了强化学习主要子领域的研究进展。
2.本书涵盖经典强化学习的完整内容,甚至包括作为深度强化学习萌芽的重要成果DFQ。对于想在强化学习领域进行创新研究的学者而言,本书有助于了解强化学习的发展历史和重要成果,进而找到更有价值的研究课题。
3.本书组织精巧,内容安排呈递增性,同时又保持各部分的相对独立,方便读者根据自己的兴趣研读相关章节。
4.本书坚持围绕前沿性和开放性问题,作者在大胆发表自己的真知灼见的同时,不忘客观地反思当前的不足,便于读者辩证地了解领域的发展,跟上领域发展的脚步。
内容简介
本书共有19章,分为六大部分,详细介绍了强化学习中各领域的基本理论和新进展,内容包括:MDP、动态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略迭代的小二乘法、迁移学习、贝叶斯强化学习、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分可观察MDP、博弈论和多学习器强化学习等内容,并阐述强化学习与心理和神经科学、游戏领域、机器人领域的关系和应用,后提出未来发展趋势及研究热点问题,有助于年轻的研究者了解整个强化学习领域,发现新的研究方向。本书适合作为高等院校机器学习相关课程的参考书,也可作为人工智能领域从业技术人员的参考用书。
强化学习领域经典的方法及高效的解决方案框架,包括TD学习、Q学习、批处理强化学习、策略迭代的zui小二乘法、模型的运用以及知识迁移,还分析了更优探索方法的理论优势以获取更好的经验。
强化学习中各种表示方式的不同用途,包括基于向量的表示、使用一阶逻辑的表示、有效地运用分层表示以及使用进化算法时用到的无偏表示。
强化学习相关的概率框架和算法,包括贝叶斯强化学习框架、部分可观察的马尔可夫决策过程、可预测的状态表示、多学习器的扩展与博弈论的概念、去中心化的部分可观察的马尔可夫决策过程框架及规划算法。
强化学习相关领域知识,包括强化学习与人类学习的关系,强化学习在游戏领域的应用以及强化学习在机器人控制中的应用等。
作者简介
马可 威宁(Marco Wiering)在荷兰格罗宁根大学人工智能系工作,他发表过各种强化学习主题的文章,研究领域包括强化学习、机器学习、深度学习、目标识别、文本学习,进化计算、机器人等。
马丁 范 奥特罗(Martijn van Otterlo)是荷兰奈梅亨大学认知人工智能小组的一员。主要研究领域是强化学习在环境中的知识表示。