《强化学习：原理与Python实战》肖智清著

目录数学符号表前言第1章初识强化学习111强化学习及其关键元素1 1．2强化学习的应用3 1．3智能体/环境接口4 1．4强化学习的分类6 1．4．1按任务分类6 1．4．2按算法分类8 1．5强化学习算法的性能指标9 1．6案例：基于Gym库的智能体/环境接口10 1．6．1安装Gym库11 1．6．2使用Gym库11 1．6．3小车上山13 1．7本章小结18 1．8练习与模拟面试19 第2章Markov决策过程2121Markov决策过程模型21 2．1．1离散时间Markov决策过程21 2．1．2环境与动力24 2．1．3策略26 2．1．4带折扣的回报26 2．2价值27 2．2．1价值的定义28 2．2．2价值的性质28 2．2．3策略的偏序和改��34 2．3带折扣的分布35 2．3．1带折扣的分布的定义35 2．3．2带折扣的分布的性质37 2．3．3带折扣的分布和策略的等价性39 2．3．4带折扣的分布下的期望40 2．4*优策略与*优价值41 2．4．1从*优策略到*优价值41 2．4．2*优策略的存在性42 2．4．3*优价值的性质与Bellman *优方程43 2．4．4用线性规划法求解*优价值48 2．4．5用*优价值求解*优策略51 2．5案例：悬崖寻路52 2．5．1使用环境52 2．5．2求解策略价值53 2．5．3求解*优价值54 2．5．4求解*优策略55 2．6本章小结55 2．7练习与模拟面试57 第3章有模型数值迭代5931Bellman算子及其性质59 3．2有模型策略迭代64 3．2．1策略评估65 3．2．2策略改进66 3．2．3策略迭代67 3．3价值迭代68 3．4自益与动态规划69 3．5案例：冰面滑行70 3．5．1使用环境71 3．5．2有模型策略迭代求解73 3．5．3有模型价值迭代求解76 3．6本章小结76 3．7练习与模拟面试77 第4章回合更新价值迭代78 4．1同策回合更新79 4．1．1同策回合更新策略评估79 4．1．2带起始探索的同策回合更新84 4．1．3基于柔性策略的同策回合更新86 4．2异策回合更新89 4．2．1重要性采样89 4．2．2异策回合更新策略评估92 4．2．3异策回合更新*优策略求解93 4．3实验：21点游戏94 4．3．1使用环境94 4．3．2同策策略评估96 4．3．3同策*优策略求解98 4．3．4异策策略评估101 4．3．5异策*优策略求解102 4．4本章小结103 4、5练习与模拟面试104 第5章时序差分价值迭代10651时序差分目标106 5．2同策时序差分更新109 5．2．1时序差分更新策略评估109 5．2．2SARSA算法113 5．2．3期望SARSA算法115 5．3异策时序差分更新117 5．3．1基于重要性采样的异策算法117 5．3．2Q学习119 5．3．3双重Q学习120 5．4资格迹121 5．4．1λ回报122 5．4．2TD(λ)算法123 5．5案例：的士调度125 5．5．1使用环境126 5．5．2同策时序差分学习127 5．5．3异策时序差分学习130 5．5．4资格迹学习132 56本章小结134 57练习与模拟面试135 第6章函数近似方法137 6.1函数近似原理138 6.2基于梯度的参数更新139 6.2．1随机梯度下降139 6.2．2半梯度下降141 6.2．3带资格迹的半梯度下降142 6．3函数近似的收敛性144 6．3．1收敛的条件144 6．3．2Baird反例145 6．4深度Q网络147 6．4．1经验回放148 6．4．2目标网络151 6．4．3双重深度Q网络152 6．4．4决斗深度Q网络153 6．5案例：小车上山154 6．5．1使用环境155 6．5．2用线性近似求解*优策略156 6.5.3用深度Q网络求解*优策略161 6.6本章小结172 6.7练习与模拟面试172 第7章回合更新策略梯度方法17471策略梯度算法的原理174 7.1.1函数近似策略174 7.1.2策略梯度定理175 7.1.3策略梯度和极大似然估计的关系179 7.2同策回合更新策略梯度算法179 7.2.1简单的策略梯度算法180 7.2.2带基线的简单策略梯度算法180 7.3异策回合更新策略梯度算法182 7.4案例：车杆平衡183 7.4.1用同策策略梯度算法求解*优策略184 7.4.2用异策策略梯度算法求解*优策略189 7.5本章小结195 7.6练习与模拟面试196 第8章执行者/评论者197 8.1执行者/评论者方法197 8.2同策执行者/评论者算法198 8.2.1动作价值执行者/评论者算法198 8.2.2优势执行者/评论者算法199 8.2.3带资格迹的执行者/评论者算法200 8.3基于代理优势的同策算法201 8.3.1性能差别引理201 8.3.2代理优势202 8.3.3邻近策略优化203 8.4自然梯度和信赖域算法205 8.4.1KL散度与Fisher信息矩阵206 8.4.2代理优势的信赖域208 8.4.3自然策略梯度算法209 8.4.4信赖域策略优化212 8.5重要性采样异策执行者/评论者算法213 8.6案例：双节倒立摆214 8.6.1用同策执行者/评论者算法求解*优策略216 8.6.2用基于代理优势的同策算法求解*优策略226 8.6.3用自然策略梯度和信赖域算法求解*优策略230 8.6.4用重要性采样异策执行者/评论者算法求解*优策略242 8.7本章小结246 8.8练习与模拟面试247 第9章连续动作空间的确定性策略248 9.1确定性策略梯度定理248 9.2同策确定性算法250 9.3异策确定性算法251 9.3.1基本的异策确定性执行者/评论者算法251 9.3.2深度确定性策略梯度算法253 9.3.3双重延迟深度确定性策略梯度算法254 9.4探索过程255 9.5案例：倒立摆的控制256 9.5.1用深

经济管理

文学艺术

人文社科

科学技术

生活休闲

教育考试

强化学习：原理与Python实战

猜你也喜欢

新书比价

图书详情

内容提要

目录

与描述相符

消费者保障

新手上路

付款方式

个人账户