您好,欢迎光临有路网!
强化学习:原理与Python实战
QQ咨询:
有路璐璐:

强化学习:原理与Python实战

  • 作者:肖智清 著
  • 出版社:机械工业出版社
  • ISBN:9787111728917
  • 出版日期:2023年08月01日
  • 页数:504
  • 定价:¥129.00
  • 分享领佣金
    手机购买
    城市
    店铺名称
    店主联系方式
    店铺售价
    库存
    店铺得分/总交易量
    发布时间
    操作

    新书比价

    网站名称
    书名
    售价
    优惠
    操作

    图书详情

    内容提要
    本书从原理和实战两个方面介绍了强化学习。原理方面,深入介绍了主流强化学习理论和算法,覆盖资格迹等经典算法和MuZero等深度强化学习算法;实战方面,每章都配套了编程案例,以方便读者学习。 全书从逻辑上分为三部分。 第1章:从零开始介绍强化学习的背景知识,介绍环境库Gym的使用。 第2~15章:基于折扣奖励离散时间Markov决策过程模型,介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论,进而在理论的基础上讲解算法,并为算法提供配套代码实现。基础理论的讲解突出主干部分,算法讲解全面覆盖主流的强化学习算法,包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应,还给出了深度强化学习算法的TensorFlow和PyTorch对照实现。 第16章:介绍其他强化学习模型,包括平均奖励模型、连续时间模型、非齐次模型、半Markov模型、部分可观测模型等,以便更好了解强化学习研究的全貌。
    目录
    目录 数学符号表 前言 第1章初识强化学习111强化学习及其关键元素1 1.2强化学习的应用3 1.3智能体/环境接口4 1.4强化学习的分类6 1.4.1按任务分类6 1.4.2按算法分类8 1.5强化学习算法的性能指标9 1.6案例:基于Gym库的智能体/环境接口10 1.6.1安装Gym库11 1.6.2使用Gym库11 1.6.3小车上山13 1.7本章小结18 1.8练习与模拟面试19 第2章Markov决策过程2121Markov决策过程模型21 2.1.1离散时间Markov决策过程21 2.1.2环境与动力24 2.1.3策略26 2.1.4带折扣的回报26 2.2价值27 2.2.1价值的定义28 2.2.2价值的性质28 2.2.3策略的偏序和改���34 2.3带折扣的分布35 2.3.1带折扣的分布的定义35 2.3.2带折扣的分布的性质37 2.3.3带折扣的分布和策略的等价性39 2.3.4带折扣的分布下的期望40 2.4*优策略与*优价值41 2.4.1从*优策略到*优价值41 2.4.2*优策略的存在性42 2.4.3*优价值的性质与Bellman *优方程43 2.4.4用线性规划法求解*优价值48 2.4.5用*优价值求解*优策略51 2.5案例:悬崖寻路52 2.5.1使用环境52 2.5.2求解策略价值53 2.5.3求解*优价值54 2.5.4求解*优策略55 2.6本章小结55 2.7练习与模拟面试57 第3章有模型数值迭代5931Bellman算子及其性质59 3.2有模型策略迭代64 3.2.1策略评估65 3.2.2策略改进66 3.2.3策略迭代67 3.3价值迭代68 3.4自益与动态规划69 3.5案例:冰面滑行70 3.5.1使用环境71 3.5.2有模型策略迭代求解73 3.5.3有模型价值迭代求解76 3.6本章小结76 3.7练习与模拟面试77 第4章回合更新价值迭代78 4.1同策回合更新79 4.1.1同策回合更新策略评估79 4.1.2带起始探索的同策回合更新84 4.1.3基于柔性策略的同策回合更新86 4.2异策回合更新89 4.2.1重要性采样89 4.2.2异策回合更新策略评估92 4.2.3异策回合更新*优策略求解93 4.3实验:21点游戏94 4.3.1使用环境94 4.3.2同策策略评估96 4.3.3同策*优策略求解98 4.3.4异策策略评估101 4.3.5异策*优策略求解102 4.4本章小结103 4、5练习与模拟面试104 第5章时序差分价值迭代10651时序差分目标106 5.2同策时序差分更新109 5.2.1时序差分更新策略评估109 5.2.2SARSA算法113 5.2.3期望SARSA算法115 5.3异策时序差分更新117 5.3.1基于重要性采样的异策算法117 5.3.2Q学习119 5.3.3双重Q学习120 5.4资格迹121 5.4.1λ回报122 5.4.2TD(λ)算法123 5.5案例:的士调度125 5.5.1使用环境126 5.5.2同策时序差分学习127 5.5.3异策时序差分学习130 5.5.4资格迹学习132 56本章小结134 57练习与模拟面试135 第6章函数近似方法137 6.1函数近似原理138 6.2基于梯度的参数更新139 6.2.1随机梯度下降139 6.2.2半梯度下降141 6.2.3带资格迹的半梯度下降142 6.3函数近似的收敛性144 6.3.1收敛的条件144 6.3.2Baird反例145 6.4深度Q网络147 6.4.1经验回放148 6.4.2目标网络151 6.4.3双重深度Q网络152 6.4.4决斗深度Q网络153 6.5案例:小车上山154 6.5.1使用环境155 6.5.2用线性近似求解*优策略156 6.5.3用深度Q网络求解*优策略161 6.6本章小结172 6.7练习与模拟面试172 第7章回合更新策略梯度方法17471策略梯度算法的原理174 7.1.1函数近似策略174 7.1.2策略梯度定理175 7.1.3策略梯度和极大似然估计的关系179 7.2同策回合更新策略梯度算法179 7.2.1简单的策略梯度算法180 7.2.2带基线的简单策略梯度算法180 7.3异策回合更新策略梯度算法182 7.4案例:车杆平衡183 7.4.1用同策策略梯度算法求解*优策略184 7.4.2用异策策略梯度算法求解*优策略189 7.5本章小结195 7.6练习与模拟面试196 第8章执行者/评论者197 8.1执行者/评论者方法197 8.2同策执行者/评论者算法198 8.2.1动作价值执行者/评论者算法198 8.2.2优势执行者/评论者算法199 8.2.3带资格迹的执行者/评论者算法200 8.3基于代理优势的同策算法201 8.3.1性能差别引理201 8.3.2代理优势202 8.3.3邻近策略优化203 8.4自然梯度和信赖域算法205 8.4.1KL散度与Fisher信息矩阵206 8.4.2代理优势的信赖域208 8.4.3自然策略梯度算法209 8.4.4信赖域策略优化212 8.5重要性采样异策执行者/评论者算法213 8.6案例:双节倒立摆214 8.6.1用同策执行者/评论者算法求解*优策略216 8.6.2用基于代理优势的同策算法求解*优策略226 8.6.3用自然策略梯度和信赖域算法求解*优策略230 8.6.4用重要性采样异策执行者/评论者算法求解*优策略242 8.7本章小结246 8.8练习与模拟面试247 第9章连续动作空间的确定性策略248 9.1确定性策略梯度定理248 9.2同策确定性算法250 9.3异策确定性算法251 9.3.1基本的异策确定性执行者/评论者算法251 9.3.2深度确定性策略梯度算法253 9.3.3双重延迟深度确定性策略梯度算法254 9.4探索过程255 9.5案例:倒立摆的控制256 9.5.1用深

    与描述相符

    100

    北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 台湾 香港 澳门 海外