您好,欢迎光临有路网!
深度强化学习:入门与实践指南
QQ咨询:
有路璐璐:

深度强化学习:入门与实践指南

  • 作者:(俄)马克西姆?拉潘(Maxim Lapan) 著王静怡 刘斌 程
  • 出版社:机械工业出版社
  • ISBN:9787111668084
  • 出版日期:2021年03月01日
  • 页数:384
  • 定价:¥119.00
  • 分享领佣金
    手机购买
    城市
    店铺名称
    店主联系方式
    店铺售价
    库存
    店铺得分/总交易量
    发布时间
    操作

    新书比价

    网站名称
    书名
    售价
    优惠
    操作

    图书详情

    内容提要
    强化学习是机器学习发展非常迅速的一个领域,由于其灵活性和通用性,可以应用在从玩游戏到优化复杂制造过程的许多实际情况。本书帮助读者迅速理解深度强化学习,并从原理到新近算法进行全面探索。关于强化学习的新资料很多,但多数过于专业和抽象,很不容易理解,并且从理解原理到可以实际解决问题之间还有巨大差距,而本书意在填补强化学习方法在实用性和结构化信息方面的不足,以帮助读者从整体上轻松理解深度强化学习。同时本书的另一个特点是面向实践,从简单到非常复杂,将每种方法实际应用在各种具体环境中,以帮助读者在实际研究和工作中应用深度强化学习来解决问题。 本书适合深度强化学习、机器学习、人工智能相关行业从业者、学习者阅读参考。
    目录
    目 录 原书前言 第1章 什么是强化学习 // 1 1.1 学习—监督、无监督和强化 // 1 1.2 RL形式和关系 // 3 1.2.1 奖励 // 4 1.2.2 智能体 // 5 1.2.3 环境 // 5 1.2.4 动作 // 6 1.2.5 观察 // 6 1.3 马尔可夫决策过程简介 // 8 1.3.1 马尔可夫过程 // 8 1.3.2 马尔可夫奖励过程 // 11 1.3.3 马尔可夫决策过程 // 13 1.4 本章小结 // 16 第2章 OpenAI Gym开源平台 // 17 2.1 智能体剖析 // 17 2.2 硬件和软件要求 // 19 2.3 OpenAI Gym API // 20 2.3.1 动作空间 // 21 2.3.2 观察空间 // 21 2.3.3 环境 // 22 2.3.4 创建环境 // 23 2.3.5 CartPole会话 // 25 2.4 随机CartPole智能体 // 26 2.5 额外的Gym功能—Wrapper和Monitor // 27 2.5.1 Wrapper // 28 2.5.2 Monitor // 30 2.6 本章小结 // 32 第3章 使用PyTorch进行深度学习 // 33 3.1 张量 // 33 3.1.1 创建张量 // 33 3.1.2 标量张量 // 35 3.1.3 张量操作 // 36 3.1.4 GPU张量 // 36 3.2 梯度 // 37 3.2.1 张量和梯度 // 38 3.3 NN构建块 // 40 3.4 定制层级 // 41 3.5 *终的黏合剂—损失函数和优化器 // 43 3.5.1 损失函数 // 44 3.5.2 优化器 // 44 3.6 使用TensorBoard监控 // 45 3.6.1 TensorBoard简介 // 46 3.6.2 绘图工具 // 47 3.7 示例:在Atari图像上使用GAN // 48 3.8 本章小结 // 52 第4章 交叉熵方法 // 53 4.1 RL方法的分类 // 53 4.2 实践交叉熵 // 54 4.3 CartPole上的交叉熵方法 // 55 4.4 FrozenLake上的交叉熵方法 // 62 4.5 交叉熵方法的理论背景 // 67 4.6 本章小结 // 68 第5章 表格学习与Bellman方程 // 69 5.1 值、状态、*优性 // 69 5.2 *优的Bellman方程 // 70 5.3 动作的值 // 72 5.4 值迭代法 // 74 5.5 实践中的值迭代 // 75 5.6 FrozenLake中的Q-learning // 80 5.7 本章小结 // 82 第6章 深度Q网络 // 83 6.1 现实中的值迭代 // 83 6.2 表格式Q-learning // 84 6.3 深度Q-learning // 88 6.3.1 与环境的交互 // 89 6.3.2 SGD优化 // 90 6.3.3 步骤之间的相关性 // 90 6.3.4 马尔可夫性 // 90 6.3.5 DQN训练的*终形式 // 91 6.4 Pong上的DQN // 91 6.4.1 封装 // 92 6.4.2 DQN模型 // 96 6.4.3 训练 // 98 6.4.4 运行与性能 // 105 6.4.5 动作中的模型 // 107 6.5 本章小结 // 109 第7章 DQN扩展 // 110 7.1 PyTorch Agent Net函数库 // 110 7.1.1 智能体 // 111 7.1.2 智能体的经验 // 112 7.1.3 经验缓冲区 // 113 7.1.4 Gym env封装 // 113 7.2 基本DQN // 113 7.3 N步DQN // 119 7.3.1 实现 // 121 7.4 双DQN // 123 7.4.1 实现 // 123 7.4.2 结果 // 126 7.5 有噪网络 // 127 7.5.1 实现 // 127 7.5.2 结果 // 130 7.6 优先级重放缓冲区 // 132 7.6.1 实现 // 133 7.6.2 结果 // 137 7.7 竞争DQN // 137 7.7.1 实现 // 138 7.7.2 结果 // 139 7.8 分类 // 140 7.8.1 实现 // 142 7.8.2 结果 // 148 7.9 结合所有 // 149 7.9.1 实现 // 150 7.9.2 结果 // 154 7.10 本章小结 // 155 参考文献 // 155 第8章 RL用于股票交易 // 156 8.1 贸易 // 156 8.2 数据 // 156 8.3 问题陈述和关键决策 // 157 8.4 交易环境 // 159 8.5 模型 // 165 8.6 训练代码 // 166 8.7 结果 // 167 8.7.1 前馈模型 // 167 8.7.2 卷积模型 // 170 8.8 要尝试的事 // 173 8.9 本章小结 // 173 第9章 策略梯度法:一种替代方案 // 174 9.1 值与策略 // 174 9.1.1 为什么是策略 // 174 9.1.2 策略表示 // 175 9.1.3 策略梯度 // 175 9.2 强化方法 // 176 9.2.1 CartPole的例子 // 177 9.2.2 结果 // 180 9.2.3 基于策略的方法与基于值的方法 // 181 9.3 强化问题 // 181 9.3.1 完整episode是必需的 // 182 9.3.2 高梯度方差 // 182 9.3.3 探索 // 182 9.3.4 样本之间的相关性 // 183 9.4 CartPole上的PG // 183 9.5 Pong上的PG // 187 9.6 本章小结 // 190 第10章 Actor-Critic方法 // 191 10.1 方差减少 // 191 10.2 CartPole方差 // 192 10.3 Actor-Critic // 194 10.4 Pong上的A2C // 196 10.5 Pong上的A2C的结果 // 201 10.6 调整超参数 // 202 10.6.1 学习率 // 203 10.6.2 熵beta // 203 10.6.3 环境数量 // 204 10.6.4 batch大小 // 204 10.7 本章小结 // 204 第11章 异步优势Actor-Critic方法 // 205 11.1 相关性和样本效率 // 205 11.2 在A2C中添加另一个A // 206 11.3 Python中的多处理 // 208 11.4 A3C—数据并行 // 208 11.5 A3C—梯度并行 // 214 11.6 本章小结 // 219 第12章 用 RL训练聊天机器人 // 220

    与描述相符

    100

    北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 台湾 香港 澳门 海外